Innanzitutto, devo dichiarare che ho cercato su questo sito la risposta. O non ho trovato una domanda che rispondesse alla mia domanda o il mio livello di conoscenza è così basso che non mi rendevo conto di aver già letto la risposta.
Sto studiando per l'AP Statistics Exam. Devo imparare la regressione lineare e uno degli argomenti sono i residui. Ho una copia di Introduzione alla statistica e all'analisi dei dati a pagina 253 che afferma.
Punti insoliti in un insieme di dati bivariato sono quelli che cadono dalla maggior parte degli altri punti nel grafico a dispersione sia nel direzione o nell'altra y direzione
Un'osservazione è potenzialmente un'osservazione influente se ha un valore che è lontano dal resto dei dati (separato dal resto dei dati nella direzione x ). Per determinare se l'osservazione è effettivamente influente, valutiamo se la rimozione di questa osservazione ha un grande impatto sul valore della pendenza o dell'intercetta della linea del minimo quadrato.
Un'osservazione è un valore anomalo se ha un grande residuo. L'osservazione esterna si allontana molto dalla linea meno quadrata nella direzione .
Stattreck.com indica quattro metodi per determinare un valore anomalo dai residui:
I punti dati che differiscono in larga misura dal modello generale sono chiamati valori anomali. Esistono quattro modi in cui un punto dati può essere considerato un valore anomalo.
- Potrebbe avere un valore X estremo rispetto ad altri punti dati.
- Potrebbe avere un valore Y estremo rispetto ad altri punti dati.
- Potrebbe avere valori X e Y estremi.
- Potrebbe essere distante dal resto dei dati, anche senza valori X o Y estremi.
Queste due fonti sembrano essere in conflitto tra loro. Qualcuno potrebbe aiutare a chiarire la mia confusione. Inoltre, come si definisce l'estremo. AP Statistics utilizza la regola se il punto dati è esterno a (Q1-1.5IQR, Q3 + 1.5IQR) se è un valore anomalo. Non so come applicarlo da un semplice grafico dei residui.