Come leggere le trame della distanza di Cook?


40

Qualcuno sa come capire se i punti 7, 16 e 29 sono punti influenti o no? Ho letto da qualche parte che, poiché la distanza di Cook è inferiore a 1, non lo sono. Ho ragione?

inserisci qui la descrizione dell'immagine


1
Ci sono varie opinioni. Alcuni di essi riguardano il numero di osservazioni o il numero di parametri. Questi sono disegnati su en.wikipedia.org/wiki/… .
whuber

@whuber Grazie. Questa è sempre un'area grigia quando eseguo l'esplorazione dei dati per me. I dati del punto 16 sopra influenzano enormemente i risultati del modello, aumentando così gli errori di tipo I.
Platypezid,

2
Si potrebbe obiettare che aumenta anche gli errori di "tipo III", che (genericamente e informalmente) sono errori relativi all'inepplicabilità del modello di probabilità sottostante.
whuber

@whuber sì, molto vero!
Platypezid,

Risposte:


43

Alcuni testi indicano che i punti per i quali la distanza di Cook è maggiore di 1 devono essere considerati influenti. Altri testi forniscono una soglia di o 4 / ( N - k - 1 ) , dove N è il numero di osservazioni e k il numero di variabili esplicative. Nel tuo caso quest'ultima formula dovrebbe produrre una soglia di circa 0,1.4/N4/(Nk1)Nk

John Fox (1), nel suo opuscolo sulla diagnostica della regressione è piuttosto cauto quando si tratta di dare soglie numeriche. Egli consiglia l'uso della grafica e di esaminare più dettagliatamente i punti con "valori di D che sono sostanzialmente più grandi del resto". Secondo Fox, le soglie dovrebbero essere utilizzate solo per migliorare le visualizzazioni grafiche.

Nel tuo caso le osservazioni 7 e 16 potrebbero essere considerate influenti. Beh, almeno li darei un'occhiata più da vicino. L'osservazione 29 non è sostanzialmente diversa da un paio di altre osservazioni.


(1) Fox, John. (1991). Diagnostica di regressione: un'introduzione . Pubblicazioni prudenti.


9
+1 Cancella riepilogo. Vorrei aggiungere che i casi influenti di solito non sono un problema quando la loro rimozione dal set di dati avrebbe lasciato il parametro stima sostanzialmente invariata: quelli che ci preoccupiamo sono quelli la cui presenza in realtà non cambiare i risultati.
whuber

1
@lejohn Molto grato per la tua risposta. Whuber ha ragione nella chiarezza eccellente nella tua risposta. Questo è molto informativo. Potrei suggerirti di evidenziare Fox e le tue opinioni nella pagina di Wikipedia!
Platypezid,

29

kk+1β0β

C'è un altro punto degno di nota qui. Nella ricerca osservazionale, è spesso difficile campionare uniformemente nello spazio predittore e potresti avere solo alcuni punti in una determinata area. Tali punti possono divergere dal resto. Avere pochi casi distinti può essere sconcertante, ma merita una riflessione considerevole prima di essere relegato in valori anomali. Potrebbe esserci legittimamente un'interazione tra i predittori o il sistema potrebbe cambiare in modo diverso quando i valori dei predittori diventano estremi. Inoltre, potrebbero essere in grado di aiutarti a districare gli effetti dei predittori colineari. I punti influenti potrebbero essere una benedizione sotto mentite spoglie.


6
+1 "La distanza di Cook è presumibilmente più importante per te se stai facendo un modello predittivo, mentre dfbeta è più importante nel modello esplicativo": questo è un consiglio molto utile.
Anne Z.

Ciao, discussione interessante. Ma non potrebbe essere razionale integrare una variabile fittizia per misurare l'effetto, ad esempio dall'osservazione 16?
Pantera,

@Pantera ho rimosso 16 e confrontato i modelli pre e post ommission
Platypezid

Ciao - se rimuovi le osservazioni, dovresti assicurarti di avere "buoni" argomenti per farlo, per esempio che l'osservazione è misurata erroneamente. Se eliminiamo l'osservazione perché creano solo problemi statistici, allora siamo vicini al data mining.
Pantera,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.