È possibile scomporre i residui adattati in bias e varianza, dopo aver inserito un modello lineare?


9

Vorrei classificare i punti dati come che necessitano di un modello più complesso o che non necessitano di un modello più complesso. Il mio pensiero attuale è di adattare tutti i dati a un semplice modello lineare e osservare la dimensione dei residui per fare questa classificazione. Ho quindi fatto alcune letture sui contributi all'errore e alla varianza e mi sono reso conto che se potessi calcolare direttamente l'inclinazione, potrebbe essere una misura migliore quindi lavorare con l'errore totale (residuo o residuo standardizzato).

È possibile stimare il bias direttamente con un modello lineare? Con o senza dati di test? La convalida incrociata sarebbe di aiuto qui?

In caso contrario, si può usare un insieme di bootstrap mediato di modelli lineari (penso che si chiami insaccamento) per approssimare la distorsione?


1
Forse questi sono equivalenti (residuo vs bias) perché la varianza è costante?
kmace

1
Potresti chiarire cosa intendi con la prima dichiarazione del tuo post? Nel senso che vuoi classificare i "punti dati" (singole osservazioni?) Come "che necessitano di un modello più complesso o che non richiedono un modello più complesso". Non mi è chiaro esattamente cosa significhi (sebbene sembri un rilevamento anomalo o un altro problema di tipo di bontà di adattamento), o come si collega alle domande successive sulla stima del bias.
Ryan Simmons,

Ciò che intendo è che esiste un sottoinsieme dei miei campioni che hanno una diversa funzione target . Quindi diciamo che per la maggior parte dei campioni, la vera funzione target è la seguente: f 1 ( x ) = 3 x 1 + 2 x 2 e per una minoranza dei campioni, la funzione target è: f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2f(X)f1(X)=3X1+2X2f2(X)=3X1+2X2+X1X2. Se non ammetto termini di interazione nel mio modello (il mio set di ipotesi non li contiene), allora dovrei adattare tutti i dati e vedere che i campioni che presentano un errore di grandi dimensioni hanno probabilmente la funzione target f2
kmace

2
Come già sottolineato da Ryan, la domanda non è molto chiara. Il tuo commento punta nella direzione di "bontà di adattamento". Ma è impossibile ribaltarlo. Sembra che tu abbia in mente un concetto preliminare, che è fuorviante. È possibile calcolare molte cose se si combinano un modello e alcuni dati e si determinano i parametri del modello. Ma dato che inizi sempre con un set di dati statisticamente limitato, non c'è verità che puoi scoprire scavando di più o con più pale. Nessun metodo applicato produrrà verità, ma potrebbe indicare quanto si possa sbagliare.
cherubino

Risposte:


12

In genere non è possibile scomporre l'errore (residui) in componenti di polarizzazione e varianza. La semplice ragione è che generalmente non conosci la vera funzione. Ricordiamo che e che f ( x ) è la cosa sconosciuta che si desidera valutare.Bioun'S(f^(X))=E[f^(X)-f(X)],f(X)

Che dire del bootstrap? E 'possibile stimare la distorsione di uno stimatore dal bootstrap, ma non si tratta di modelli di insaccamento, e non credo ci sia un modo per utilizzare il bootstrap di valutare la polarizzazione in f ( x ) , in quanto si basa ancora bootstrap su qualche nozione di Verità e non può, nonostante le origini del suo nome, creare qualcosa dal nulla.f^(X),

Per chiarire: la stima bootstrap della distorsione nello stimatore θ è ^ b i un s B = θ * ( ) - θ ,θ^

Bioun'S^B=θ^*()-θ^,

con θ * ( ) è la media della statistica calcolata su B campioni di bootstrap . Questo processo emula quello del campionamento da alcune popolazioni e il calcolo della quantità di interesse. Questo funziona solo se θ potrebbe in linea di principio essere calcolata direttamente dalla popolazione. La stima bootstrap del bias valuta se la stima del plug-in, ovvero effettuando lo stesso calcolo su un campione anziché nella popolazione, è distorta.θ^*()B θ^

Se vuoi solo usare i tuoi residui per valutare l'adattamento del modello, è del tutto possibile. Se, come dici nei commenti, vuoi confrontare i modelli nidificati e f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2 , tu può fare ANOVA per verificare se il modello più grande riduce significativamente la somma dell'errore al quadrato.f1(X)=3X1+2X2f2(X)=3X1+2X2+X1X2


8

Una situazione in cui è possibile ottenere una stima della decomposizione è se si hanno punti replicati (ovvero per avere più di una risposta per varie combinazioni dei predittori).

Questo è principalmente limitato alle situazioni in cui hai il controllo delle variabili indipendenti (come negli esperimenti) o in cui sono tutte discrete (quando non ci sono troppe combinazioni di x e puoi prendere un campione abbastanza grande che combinazioni di valori di x ottenere più punti).

I punti replicati offrono un modo senza modello di stimare la media condizionale. In tali situazioni c'è la possibilità di decomposizione della somma residua di quadrati in puro errore e mancanza di adattamento , ma si hanno anche stime dirette (sebbene necessariamente rumorose) della distorsione ad ogni combinazione di valori x per i quali si hanno risposte multiple.


Non penso che funzionerà. Considera il caso in cui hai omesso un'importante variabile esplicativa dal tuo modello. Se questa variabile esplicativa è ortogonale a tutte le altre variabili esplicative, credo che il suo effetto (o la mancanza di) non possa essere rilevato con questa o qualsiasi altra metodologia suggerita in altre risposte.
Cagdas Ozgenc,

2
@Cagdas Non funziona in tutte le circostanze; rileva pregiudizi da modello a forma mispecified, predittori non necessariamente mancanti
Glen_b -Reinstate Monica

1

Nel regno di filtraggio Kalman un po 'più complesso, a volte le persone testano i residui (misurazioni osservate meno misurazioni previste) per cercare cambiamenti nel modello o condizioni di guasto. In teoria, se il modello è perfetto e il rumore è gaussiano, anche i residui dovrebbero essere gaussiani con media zero ed essere coerenti con una matrice di covarianza prevista. Le persone possono testare la media diversa da zero con test sequenziali come un Test del rapporto di probabilità sequenziale (SPRT). La tua situazione è diversa perché hai un batch di dati fisso piuttosto che un flusso costante di nuovi dati. Ma l'idea di base di esaminare la distribuzione campionaria dei residui potrebbe ancora applicarsi.

Indichi che il processo che stai modellando potrebbe cambiare occasionalmente. Quindi, per fare di più con i dati che hai, probabilmente dovresti identificare altri fattori che causano quel cambiamento. Considera 2 possibilità: (1) forse hai bisogno di modelli locali piuttosto che di un modello globale, ad es. Perché ci sono gravi non linearità solo in alcune regioni operative, oppure (2), forse il processo cambia nel tempo.

Se si tratta di un sistema fisico e i campioni non vengono separati a intervalli di tempo enormi, è possibile che queste modifiche al processo persistano per periodi di tempo significativi. Cioè, i parametri del modello vero possono occasionalmente cambiare, persistendo per un certo periodo di tempo. Se i tuoi dati sono timestamp, potresti guardare i residui nel tempo. Ad esempio, supponiamo che tu abbia adattato y = Ax + b usando tutti i tuoi dati, trovando A e b. Quindi tornare indietro e testare la sequenza residua r [k] = y [k] - Ax [k] - b, dove k è un indice corrispondente ai tempi in ordine sequenziale. Cerca modelli nel tempo, ad esempio periodi in cui statistiche riassuntive come || r [k] || rimane più alto del normale per qualche tempo. I test sequenziali sarebbero i più sensibili al rilevamento di errori di polarizzazione sostenuti, qualcosa come SPRT o persino CUSUM per singoli indici vettoriali.


1

La risposta è no , perché il bias e la varianza sono attributi dei parametri del modello, piuttosto che i dati utilizzati per stimarli. C'è un'eccezione parziale a quell'affermazione che riguarda la distorsione e la varianza che variano (ah!) Attraverso lo spazio predittore; più su quello qui sotto. Si noti che ciò non ha assolutamente nulla a che fare con la conoscenza di alcune funzioni "vere" relative ai predittori e alle variabili di risposta.

ββ^=(XTX)-1XTYXN×Pβ^P×1YN×1NPβ^NioterNNioterβ^NP

β^BeStPβ^BeStj-β^jj1Nioter

Esistono modi corrispondenti di correlare pregiudizio e varianza con i dati stessi, ma sono un po 'più complicati. Come puoi vedere, la polarizzazione e la varianza possono essere stimate per i modelli lineari, ma avrai bisogno di un bel po 'di dati di controllo. Un problema più insidioso è il fatto che una volta che inizi a lavorare con un set di dati fisso, le tue analisi saranno inquinate dalla tua varianza personale , in quanto avrai già iniziato a vagare nel giardino dei percorsi di fork e non c'è modo di sapere come si replicherebbe fuori campione (a meno che tu non abbia appena inventato un singolo modello ed eseguito questa analisi e ti impegni a lasciarlo solo dopo).

YY^Y-Y^Y^=Xβ^β^ YX

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.