Valore di interruzione della distanza di Cook

Ho letto a distanza del cuoco per identificare i valori anomali che hanno un'alta influenza sulla mia regressione. Nello studio originale di Cook, afferma che un tasso di cut-off di 1 dovrebbe essere comparabile per identificare gli influenzatori. Tuttavia, vari altri studi usano o come cut-off. $\frac{4}{n}$ $\frac{4}{n-k-1}$

Nel mio studio, nessuno dei miei residui ha una D superiore a 1. Tuttavia, se uso come valore limite , allora ci sono vari dati punti che sono considerati influenzatori. Ho deciso di verificare se la rimozione di questi punti dati avrebbe fatto la differenza per la mia regressione lineare generale. Tutti i miei IV hanno conservato il loro significato e nessun evidente cambiamento era evidente. $\frac{4}{n}$ $(\frac{4}{149}= .026)$

Devo conservare tutti i miei punti dati e utilizzare la frequenza di taglio di 1? O rimuoverli?

outliers cooks-distance

— dissertationhelp
fonte

Check Baltagi (2011) Econometrics, 5e. Nel capitolo 8, sezione 8.1. Suggerisce un'altra misura derivante dalla distanza di Cook, e controlla anche le distorsioni / influenze dell'occhio influente nella matrice Var-Covar, di cui potresti anche avere bisogno, poiché i tuoi stimatori non cambiano molto ...

— SirAlex,

Non dovresti rimuovere alcun dato sulla base di questa diagnostica. Il suo scopo è di aiutarti a pensare a loro e ai loro effetti sulla tua analisi.

— whuber

Probabilmente andrei con il tuo modello originale con il tuo set di dati completo. In genere, penso a queste cose come a facilitare le analisi di sensibilità. Cioè, ti indicano cosa controllare per assicurarti di non avere un determinato risultato solo a causa di qualcosa di stupido. Nel tuo caso, hai alcuni punti potenzialmente influenti, ma se riesegui il modello senza di essi, ottieni sostanzialmente la stessa risposta (almeno per quanto riguarda gli aspetti che presumibilmente ti interessano). In altre parole, usa la soglia che preferisci: stai solo modificando il modello come controllo, non come versione "vera". Se ritieni che le altre persone saranno sufficientemente preoccupate per i potenziali valori anomali, potresti segnalare entrambi gli adattamenti del modello. Quello che diresti è sulla falsariga di,

Ecco i miei risultati Si potrebbe temere che questo quadro emerga solo a causa di un paio di osservazioni insolite, ma altamente influenti. Questi sono i risultati dello stesso modello, ma senza quelle osservazioni. Non ci sono differenze sostanziali.

È anche possibile rimuoverli e utilizzare il secondo modello come risultato principale. Dopotutto, stare con il set di dati originale equivale a un'ipotesi su quali dati appartengano al modello tanto quanto andare con il sottoinsieme. Ma è probabile che le persone siano molto scettiche sui risultati segnalati perché psicologicamente è troppo facile per qualcuno convincere se stessi, senza alcun reale intento corrotto, di andare con il set di modifiche post-hoc (come lasciar cadere alcune osservazioni) che danno loro il risultato che più si aspettavano di vedere. Seguendo sempre il set di dati completo, si impedisce tale possibilità e si assicura alle persone (ad esempio, i revisori) che non è quello che sta succedendo nel progetto.

Un altro problema qui è che le persone finiscono per " inseguire la bolla ". Quando si rilasciano alcuni potenziali valori anomali e si esegue nuovamente il modello, si ottengono risultati che mostrano osservazioni nuove e diverse come potenziali valori anomali. Quante iterazioni dovresti attraversare? La risposta standard a questo è che dovresti rimanere con il tuo set di dati completo e originale ed eseguire invece una regressione efficace. Anche questo può essere inteso come un'analisi di sensibilità.

— gung - Ripristina Monica
fonte