Sto cercando di capire come funzionano le funzioni di influenza. Qualcuno potrebbe spiegare nel contesto di una semplice regressione OLS
dove voglio la funzione influenza per .
Sto cercando di capire come funzionano le funzioni di influenza. Qualcuno potrebbe spiegare nel contesto di una semplice regressione OLS
dove voglio la funzione influenza per .
Risposte:
Le funzioni di influenza sono sostanzialmente uno strumento analitico che può essere utilizzato per valutare l'effetto (o "influenza") della rimozione di un'osservazione sul valore di una statistica senza dover ricalcolare quella statistica . Possono anche essere utilizzati per creare stime di varianza asintotica. Se l'influenza è uguale a allora la varianza asintotica è .I 2
Il modo in cui comprendo le funzioni di influenza è il seguente. Hai una sorta di CDF teorico, indicato da . Per un semplice OLS, hai
Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1
Nota che quindi otteniamo: S [ F ( i ) ( z , ζ ) ] ≈ S [ F ( z ) ] + ζ [ ∂ S [ F ( i ) ( z , ζ ) ]
La derivata parziale qui è chiamata la funzione di influenza. Quindi questo rappresenta una correzione approssimativa del "primo ordine" da apportare a una statistica a causa dell'eliminazione dell'osservazione "I". Si noti che nella regressione il resto non va a zero asintoticamente, quindi questa è un'approssimazione delle modifiche che si possono effettivamente ottenere. Ora scrivi come:
Quindi beta è una funzione di due statistiche: la varianza di X e la covarianza tra X e Y. Queste due statistiche hanno rappresentazioni in termini di CDF come:
v a r ( X ) = ∫ ( X - μ x ( F ) ) 2 d F μ x = ∫ x d F
Per rimuovere la sua osservazione sostituiamo in entrambi gli integrali per dare:
ignorando i termini di e semplificando otteniamo: Allo stesso modo per la covarianza
Quindi ora possiamo esprimere in funzione di . Questo è:
Ora possiamo usare la serie Taylor:
Semplificando ciò si ottiene:
E inserendo i valori delle statistiche , , e otteniamo:
E puoi vedere come è possibile approssimare l'effetto della rimozione di una singola osservazione senza dover adattare nuovamente il modello. Puoi anche vedere come una x uguale alla media non ha influenza sulla pendenza della linea . Pensaci e vedrai come ha senso. Puoi anche scrivere questo in modo più succinto in termini di valori standardizzati (in modo simile per y):
Ecco un modo super generale per parlare delle funzioni di influenza di una regressione. Per prima cosa affronterò un modo di presentare le funzioni di influenza:
Supponiamo che sia una distribuzione su . La funzione di distribuzione contaminata , può essere definita come: dove è la misura di probabilità su che assegna la probabilità da 1 a e 0 a tutti gli altri elementi di .
Da questo possiamo definire abbastanza facilmente la funzione di influenza:
La funzione di influenza di in , è definita come:
Da qui è possibile vedere che una funzione di influenza è la derivata di Gateaux di in nella direzione di . Questo rende l'interpretazione delle funzioni di influenza (per me) un po 'più chiara: una funzione di influenza ti dice l'effetto che una particolare osservazione ha sullo stimatore.
La stima OLS è una soluzione al problema:
Immagina una distribuzione contaminata che metta un po 'più di peso sull'osservazione :
Condizioni del primo ordine:
Poiché la funzione di influenza è solo un derivato di Gateaux ora possiamo dire:
At , , quindi:
La controparte del campione finito di questa funzione di influenza è:
In generale, trovo che questo framework (lavorare con le funzioni di influenza come derivati di Gateaux) sia più facile da gestire.