Significato preciso e confronto tra punto influente, punto di leva elevato e valore anomalo?


15

Da Wikipedia

Le osservazioni influenti sono quelle osservazioni che hanno un effetto relativamente grande sulle previsioni del modello di regressione.

Da Wikipedia

I punti di leva sono quelle eventuali osservazioni fatte a valori estremi o periferici delle variabili indipendenti in modo tale che la mancanza di osservazioni vicine significhi che il modello di regressione adattato passerà vicino a quella particolare osservazione.

Perché è il seguente confronto da Wikipedia

Sebbene un punto influente abbia in genere una leva elevata , un punto leva elevato non è necessariamente un punto influente .


2
Le risposte di seguito sono buone. Può anche aiutare a leggere la mia risposta qui: Interpretazione di plot.lm () .
gung - Ripristina Monica

Risposte:


13

Immagina qualsiasi linea di regressione adattata ad alcuni dati.

Immagina ora un punto dati aggiuntivo, un valore anomalo a una certa distanza dal corpo principale dei dati, ma che si trova da qualche parte lungo quella linea di regressione.

Se la linea di regressione dovesse essere ripristinata, i coefficienti non cambierebbero. Al contrario, l'eliminazione del valore anomalo extra avrebbe un'influenza zero sui coefficienti.

Pertanto, un punto anomalo o leva avrebbe un'influenza zero se fosse perfettamente coerente con il resto dei dati e il modello che il resto implica.

Per "linea" leggi "piano" o "iperpiano" se lo desideri, ma qui è sufficiente l'esempio più semplice di due variabili e un diagramma a dispersione.

Tuttavia, poiché ti piacciono le definizioni - spesso, a quanto pare, tende a leggere troppo in esse - ecco la mia definizione preferita di valori anomali:

"I valori anomali sono valori di esempio che causano sorpresa rispetto alla maggior parte del campione" (WN Venables e BD Ripley. 2002. Statistiche applicate moderne con S. New York: Springer, p.119).

Fondamentalmente, la sorpresa è nella mente di chi guarda e dipende da un modello tacito o esplicito dei dati. Potrebbe esserci un altro modello in base al quale il valore anomalo non è affatto sorprendente, ad esempio se i dati sono davvero lognormali o gamma piuttosto che normali.

PS Non credo che i punti di leva manchino necessariamente di osservazioni vicine. Ad esempio, possono verificarsi in coppia.


Grazie! Valori anomali e punti di leva elevati sono lo stesso concetto? Nota che "la leva finanziaria è in genere definita come la diagonale della matrice del cappello" da en.wikipedia.org/wiki/Partial_leverage
Tim

1
No; non ci hai mostrato una definizione di "outlier", ma segue dalla definizione di punti di leva che essi non devono essere valori anomali sensu Venables e Ripley. (Consiglio di provare a liberarti di Wikipedia.) Vedi anche la risposta di @ Gael.
Nick Cox,

1
"Fondamentalmente, la sorpresa è nella mente di chi guarda e dipende da un modello tacito o esplicito dei dati. Potrebbe esserci un altro modello in base al quale il valore anomalo non è affatto sorprendente, per esempio se i dati sono davvero lognormali o gamma piuttosto che normale." Quindi i valori anomali sono definiti in alcuni modelli, mentre i punti di leva elevati e quelli influenti non lo sono?
Tim

1
Venables e Ripley, mentre lo leggevo, stavano facendo un punto intelligente in modo arguto e sovvertivano l'idea ingenua che i valori anomali possano essere definiti da affermazioni esatte e formali. Ma altri trattamenti possono essere trovati in diversi stili. Al contrario, l'effetto leva e l'influenza possono essere definiti formalmente in termini di modi per misurarli. I due stili di utilizzo della terminologia non sono realmente coerenti. Per avere un'idea più precisa di ciò che sono e non sono i valori anomali, l'esperienza dell'analisi dei dati effettivi insegna più della lettura delle voci dell'enciclopedia.
Nick Cox,

Gael, riferito al commento del 29 luglio 2013, utilizza ora l'identificatore @Gala. Al momento della scrittura c'è solo un'altra risposta, ma ciò può cambiare.
Nick Cox,

20

È facile illustrare come un punto di leva elevato potrebbe non essere influente nel caso di un modello lineare semplice:

Leva elevata ma punto non troppo influente

La linea blu è una linea di regressione basata su tutti i dati, la linea rossa ignora il punto in alto a destra del grafico.

Questo punto si adatta alla definizione di un elevato punto di leva che hai appena fornito in quanto è lontano dal resto dei dati. Per questo motivo, la linea di regressione (quella blu) deve passare vicino ad essa. Ma poiché la sua posizione si adatta in gran parte al modello osservato nel resto dei dati, l'altro modello lo predirebbe molto bene (cioè la linea rossa già gli passa vicino in ogni caso) e quindi non è particolarmente influente.

Confronta questo con il seguente diagramma a dispersione:

Alta leva punto altamente influente

Qui, il punto a destra della trama è ancora un punto di leva elevato ma questa volta non si adatta davvero al modello osservato nel resto dei dati. La linea blu (adattamento lineare basato su tutti i dati) passa molto vicino ma la linea rossa no. Includere o escludere questo punto modifica notevolmente le stime dei parametri: ha molta influenza.

Nota che le definizioni che hai citato e gli esempi che ho appena dato potrebbero sembrare che i punti di leva / influenza elevati siano, in un certo senso, "outlier" univariati e che la linea di regressione adattata passerà vicino ai punti con la massima influenza, ma è necessario non essere il caso.

Punto nascosto altamente influente

In questo ultimo esempio, l'osservazione in basso a destra ha un effetto (relativamente) grande sull'adattamento del modello (visibile di nuovo attraverso la differenza tra le linee rossa e blu) ma sembra comunque essere molto lontano dalla linea di regressione pur non essendo rilevabile nelle distribuzioni univariate (rappresentate qui dai "tappeti" lungo gli assi).


Grazie! L'alto punto di leva che abbiamo usato qui è coerente con "la leva è generalmente definita come la diagonale della matrice del cappello" da en.wikipedia.org/wiki/Partial_leverage ?
Tim

Spiegazione eccellente. Ti sarei grato se fornissi anche i dati per tutti e tre i casi. Grazie
MYaseen208,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.