Residuo influente vs. valore anomalo


10

Innanzitutto, devo dichiarare che ho cercato su questo sito la risposta. O non ho trovato una domanda che rispondesse alla mia domanda o il mio livello di conoscenza è così basso che non mi rendevo conto di aver già letto la risposta.

Sto studiando per l'AP Statistics Exam. Devo imparare la regressione lineare e uno degli argomenti sono i residui. Ho una copia di Introduzione alla statistica e all'analisi dei dati a pagina 253 che afferma.

Punti insoliti in un insieme di dati bivariato sono quelli che cadono dalla maggior parte degli altri punti nel grafico a dispersione sia nel direzione o nell'altra y direzionexy

Un'osservazione è potenzialmente un'osservazione influente se ha un valore che è lontano dal resto dei dati (separato dal resto dei dati nella direzione x ). Per determinare se l'osservazione è effettivamente influente, valutiamo se la rimozione di questa osservazione ha un grande impatto sul valore della pendenza o dell'intercetta della linea del minimo quadrato.xx

Un'osservazione è un valore anomalo se ha un grande residuo. L'osservazione esterna si allontana molto dalla linea meno quadrata nella direzione .y

Stattreck.com indica quattro metodi per determinare un valore anomalo dai residui:

I punti dati che differiscono in larga misura dal modello generale sono chiamati valori anomali. Esistono quattro modi in cui un punto dati può essere considerato un valore anomalo.

  1. Potrebbe avere un valore X estremo rispetto ad altri punti dati.
  2. Potrebbe avere un valore Y estremo rispetto ad altri punti dati.
  3. Potrebbe avere valori X e Y estremi.
  4. Potrebbe essere distante dal resto dei dati, anche senza valori X o Y estremi.

Queste due fonti sembrano essere in conflitto tra loro. Qualcuno potrebbe aiutare a chiarire la mia confusione. Inoltre, come si definisce l'estremo. AP Statistics utilizza la regola se il punto dati è esterno a (Q1-1.5IQR, Q3 + 1.5IQR) se è un valore anomalo. Non so come applicarlo da un semplice grafico dei residui.

Risposte:


5

Il sito stattrek sembra avere una descrizione molto migliore di valori anomali e punti influenti rispetto al tuo libro di testo, ma hai citato solo un breve passaggio che può essere fuorviante. Non ho quel libro in particolare, quindi non posso esaminarlo nel contesto. Tieni presente, tuttavia, che il passaggio del libro di testo che hai citato dice "potenzialmente". Non è nemmeno esclusivo. Tenendo presente questi punti, Stattrek e il tuo libro non sono necessariamente in disaccordo. Ma sembra che il tuo libro sia fuorviante nel senso che implica (da questo breve passaggio) che l'unica differenza tra valori anomali e punti influenti è se si discostano sull'asse x o y. Questo non è corretto

La "regola" per gli outlier varia a seconda del contesto. La regola che citi è solo una regola empirica e sì, non progettata per la regressione. Ci sono alcuni modi per usarlo. Potrebbe essere più facile visualizzare se immagini più valori y per ogni x ed esaminando i residui. I tipici esempi di regressione del libro di testo sono troppo semplici per vedere come potrebbe funzionare quella regola anomala, e nella maggior parte dei casi reali è del tutto inutile. Eventualmente, nella vita reale, raccogli molti più dati. Se è necessario che si stia applicando la regola quantile per gli outlier a un problema di regressione, dovrebbero fornire i dati per i quali è appropriato.


Grazie per la risposta, diventa solo fastidioso che libri diversi provino a dichiarare queste regole senza dirlo onestamente dipende dai dati, come stai dicendo.
MaoYiyi,

1
In realtà, l'ho dichiarato anche sbagliato ... dipende dalla teoria, dal metodo e dai dati ... l'intero studio.
Giovanni

5

X(XX)1X

L'influenza è una funzione dei punti di progettazione (i valori X), come afferma il tuo libro di testo.

Nota che l'influenza è potere. In un esperimento progettato, desideri valori X influenti, supponendo che tu possa misurare accuratamente il valore Y corrispondente. In questo modo ottieni più soldi per il dollaro.

Per me, un outlier è fondamentalmente un errore, vale a dire un'osservazione che non segue lo stesso modello del resto dei dati. Ciò può verificarsi a causa di un errore di raccolta dei dati o perché quel particolare soggetto era in qualche modo insolito.

Non mi piace molto la definizione di stattrek di un outlier per diversi motivi. La regressione non è simmetrica in Y e X. Y è modellato come una variabile casuale e si presume che le X siano fisse e note. La stranezza negli Y non è la stessa stranezza degli X. Influenza e outliership significano cose diverse. L'influenza, nella regressione multipla, non viene rilevata osservando i grafici residui. Una buona descrizione dei valori anomali e dell'influenza per il singolo caso variabile dovrebbe essere utile anche per comprendere il caso multiplo.

Non mi piace ancora di più il tuo libro di testo, per le ragioni fornite da John.

In conclusione, influenti valori anomali sono pericolosi. Devono essere esaminati attentamente e trattati.


Il tuo disprezzo per la spiegazione della regressione di Stattrek è appropriato se vieni da uno sfondo in cui i veri esperimenti sono la norma. I tuoi motivi si applicano tutti lì. Ma se provieni da uno sfondo in cui i progetti quasi sperimentali sono più comuni, allora il sito stattrek ha più rilevanza. In questi casi entrambi i valori xey sono spesso solo campioni casuali.
John

@John che ne dici di voler superare l'esame AP Statistics? Cos'è il design quasi sperimentale? Sta usando una tabella numerica casuale per una simulazione?
MaoYiyi,

1
Non so nulla dell'esame di statistiche AP. I veri esperimenti sono quelli in cui manipoli la variabile predittore e crei gruppi per testare ipotesi multiple o gruppi di controllo e sperimentali, ecc. I progetti quasi sperimentali sono praticamente qualsiasi altra cosa che assomigli ad un esperimento. Quindi, immagina una regressione in cui il valore x è peso e il valore y è un'abilità sportiva. Non manipolate nessuna delle variabili, le campionate casualmente entrambe. Quindi, le critiche di Placidia a Stattrek sono abbastanza valide per veri esperimenti, ma non tanto per quasi.
John

@ John ... Vengo da uno sfondo in cui gli esperimenti progettati sono visti come il gold standard. In pratica, so che X e Y sono spesso entrambi campioni casuali, il che fa sorgere la domanda sul perché venga utilizzata la regressione e non una qualche forma di analisi delle variabili latenti.
Placidia,

Quando hai solo due variabili ... :) A volte hai una buona teoria per suggerire che una cosa ne preveda un'altra, ad esempio altezza e probabilità di entrare nell'NBA ... entrambi campioni casuali. In casi con una, o poche (in particolare non correlate) relazioni regressive è buona.
John
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.