Decomposizione della varianza: termine per errore di previsione al quadrato atteso meno errore irriducibile


9

Hastie et al. "The Elements of Statistical Learning" (2009) considera un processo di generazione di dati con e .E ( ε ) = 0 Var ( ε ) = σ 2 ε

Y=f(X)+ε
E(ε)=0Var(ε)=σε2

Presentano la seguente decomposizione della variazione di polarizzazione dell'errore di previsione al quadrato previsto nel punto (p. 223, formula 7.9): Nel mio proprio lavoro Non specifico ma prendo invece una previsione arbitraria (se questo è rilevante). Domanda: Sto cercando un termine per o, più precisamente, Err ( x 0 )x0F () y

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
f^()y^
Err varianza ( x 0 ) - Errore irriducibile .
Bias2+Variance
Err(x0)Irreducible error.

3
Qual è la domanda qui?
Michael R. Chernick,

1
@sntx, grazie per l'idea. Ma in qualche modo non suona bene. Forse errore di modellazione (ovvero errore dovuto a errata specificazione del modello e stima imprecisa del modello), ma non ha senso se non esiste un modello che genera previsioni (ad esempio previsioni di esperti).
Richard Hardy,

1
@DeltaIV, è piuttosto buono. Tuttavia, penso che il termine sia addebitato; sembra che la previsione sia scarsa e che potremmo fare di meglio. Ma supponiamo di aver fatto del nostro meglio per i dati forniti. Quindi ci è capitato di scegliere il modello corretto (senza "distorsione del modello") ma il campione è troppo piccolo per stimare perfettamente i coefficienti. La varianza della stima ("varianza del modello") è quindi davvero irriducibile per la dimensione del campione data, mentre il termine "errore riducibile" suggerisce che non è così. Non che sono sicuro che possiamo trovare un termine migliore, mi piacerebbe ancora lottare per questo.
Richard Hardy,

1
@DeltaIV, OK, ora ho capito l'intuizione in che senso è riducibile. Tuttavia il termine potrebbe essere fuorviante se usato senza ulteriori spiegazioni (proprio come dovevi spiegarmi). Il tuo ultimo suggerimento è preciso, il che è davvero bello, ma proprio come hai detto, è piuttosto contorto.
Richard Hardy,

1
@DeltaIV, non avevo intenzione di suonare così. Questo non è nulla di personale; i miei argomenti (si spera convincenti) sono sopra nei commenti. Ma grazie per avere una discussione con me, aiuta.
Richard Hardy,

Risposte:


4

Propongo un errore riducibile . Questa è anche la terminologia adottata nel paragrafo 2.1.1 di Gareth, Witten, Hastie & Tibshirani, An Introduction to Statistical Learning , un libro che è sostanzialmente una semplificazione di ESL + alcuni fantastici laboratori di codice R (tranne per il fatto che usano attach, ma, ehi, nessuno è perfetto). Elencherò di seguito i motivi dei pro e dei contro di questa terminologia.


Prima di tutto, dobbiamo ricordare che non solo assumiamo che abbia la media 0, ma che sia anche indipendente da (vedi paragrafo 2.6.1, formula 2.29 di ESL, 2a edizione, 12a stampa). Quindi ovviamente non può essere stimato da , indipendentemente dalla classe di ipotesi (famiglia di modelli) che scegliamo e da quanto grande campione usiamo per apprendere la nostra ipotesi (stimare il nostro modello). Questo spiega perché è chiamato errore irriducibile .ϵXϵXHσϵ2

Per analogia, sembra naturale definire la parte rimanente dell'errore, , l' errore riducibile . Ora, questa terminologia può sembrare un po 'confusa: di fatto, partendo dal presupposto che abbiamo fatto per il processo di generazione dei dati, possiamo dimostrare cheErr(x0)σϵ2

f(x)=E[Y|X=x]

Pertanto, l' errore riducibile può essere ridotto a zero se e solo se (supponendo ovviamente che abbiamo uno stimatore coerente). Se , non possiamo portare l'errore riducibile a 0, anche nel limite di una dimensione infinita del campione. Tuttavia, è ancora l'unica parte del nostro errore che può essere ridotta, se non eliminata, modificando la dimensione del campione, introducendo regolarizzazione (restringimento) nel nostro stimatore, ecc. In altre parole, scegliendo un altro nella nostra famiglia di modelli.E[Y|X=x]HE[Y|X=x]Hf^(x)

Fondamentalmente, riducibile non è inteso nel senso di azzerabile (schifo!), Ma nel senso di quella parte dell'errore che può essere ridotta, anche se non necessariamente resa arbitrariamente piccola. Inoltre, si noti che in linea di principio questo errore può essere ridotto a 0 ingrandendo fino a includere . Al contrario, non può essere ridotto, non importa quanto grande è, perché .HE[Y|X=x]σϵ2 ϵ XHϵX


Se il rumore è l'errore irriducibile, non è irriducibile. Devi motivarlo in qualche modo, non posso farlo da solo.
Carl,

In 2.1.1 l'esempio è "saggio di alcuni farmaci nel sangue". Il primo esempio che fornisco di seguito è esattamente questo. In tale analisi, il cosiddetto errore irriducibile della misurazione non è affatto del genere. È composto dal conteggio del rumore, che di solito viene ridotto contando 10000 o più eventi, errore di pipettaggio, che viene distribuito quasi in modo esponenziale e altri errori tecnici. Per ridurre ulteriormente questi errori "irriducibili", consiglio di utilizzare la mediana di tre provette per ogni campione di tempo. Il termine irriducibile è gergo negativo, riprovare.
Carl,

1
@Delta, grazie per la risposta. Un "errore riducibile" di una riga potrebbe non essere stato molto convincente, ma dato il contesto e la discussione sembra piuttosto buono!
Richard Hardy,

Non penso che lo scopo di sviluppare il gergo sia confondere le persone. Se vuoi dire un errore indipendente da , contro l'errore che è la funzione di , dì cosa intendi. nnn
Carl,

@DeltaV Credo che la riducibilità sia un presupposto dubbio, vedi sotto.
Carl,

0

In un sistema per il quale tutte le occorrenze fisiche sono state correttamente modellate, il residuo sarebbe il rumore. Tuttavia, in genere esiste una maggiore struttura dell'errore di un modello nei dati rispetto al solo rumore. Ad esempio, la modellizzazione del bias e del rumore da soli non spiegano i residui curvilinei, cioè la struttura dei dati non modellata. La totalità della frazione inspiegabile è , che può consistere in una rappresentazione errata della fisica, nonché nella distorsione e nel rumore della struttura nota. Se per pregiudizio intendiamo solo l'errore nella stima della media y n n1R2y, per "errore irriducibile" intendiamo rumore, e per varianza intendiamo l'errore fisico sistemico del modello, quindi la somma dell'errore fisico (quadrato) e dell'errore fisico sistemico non è nulla di speciale, è semplicemente l'errore che non è rumore . Il termine errore di registrazione (al quadrato) potrebbe essere usato per questo in un contesto specifico, vedi sotto. Se vuoi dire un errore indipendente da , contro l'errore che è una funzione dinn , dillo. IMHO, nessuno dei due errori è irriducibile, cosicché la proprietà di irriducibilità induce in errore al punto da confondere più di quanto illumini.

Perché non mi piace il termine "riducibilità"? Sa di tautologia autoreferenziale come nell'assioma della riducibilità . Concordo con Russell del 1919 sul fatto che "non vedo alcun motivo per credere che l'assioma della riducibilità sia logicamente necessario, il che è ciò che si vorrebbe dire dicendo che è vero in tutti i mondi possibili. L'ammissione di questo assioma in un sistema di la logica è quindi un difetto ... un presupposto dubbio. "

Di seguito è riportato un esempio di residui strutturati a causa della modellazione fisica incompleta. Ciò rappresenta i residui dall'adattamento ordinario dei minimi quadrati di una distribuzione gamma scalata, cioè una gamma variata (GV), ai campioni di radioattività del plasma sanguigno di un radiofarmaco filtrato glomerulare renale [ 1 ]. Si noti che più dati vengono scartati ( per ciascun campione temporale), migliore è il modello, in modo che la riducibilità diminuisca con un intervallo di campionamento maggiore.n=36

inserisci qui la descrizione dell'immagine

È da notare che quando si rilascia il primo campione a cinque minuti, la fisica migliora come fa in sequenza mentre si continua a far cadere i primi campioni a 60 minuti. Ciò dimostra che, sebbene il GV alla fine costituisca un buon modello per la concentrazione plasmatica del farmaco, nei primi tempi succede qualcosa di diverso.

In effetti, se si coinvolgono due distribuzioni gamma, una per la prima volta, la consegna circolatoria del farmaco e una per la clearance dell'organo, questo tipo di errore, errore di modellizzazione fisica, può essere ridotto a meno [ 2 ]. Il prossimo è un esempio di quella convoluzione.1%

inserisci qui la descrizione dell'immagine

Da quest'ultimo esempio, per una radice quadrata di conteggi rispetto al grafico temporale, le deviazioni dell'asse sono deviazioni standardizzate nel senso di errore del rumore di Poisson. Un tale grafico è un'immagine per la quale gli errori di adattamento sono errori di registrazione delle immagini dovuti a distorsione o deformazione. In quel contesto, e solo in quel contesto, l'errata registrazione è bias più errore di modellazione e l'errore totale è l'errata registrazione più errore noise.y


In effetti, questo è ciò che riguarda la decomposizione sopra. Ma la tua risposta servirebbe meglio come commento in quanto non affronta la domanda reale. O lo fa?
Richard Hardy,

Grazie, ma la risposta è appena uscita dall'argomento. Ho difficoltà a trovare una connessione tra la domanda effettiva (come posso chiamare ) e tutto questo ...Bias2+Variance
Richard Hardy,

Ancora una volta, stai rispondendo a una domanda diversa. Una risposta giusta a una domanda sbagliata è purtroppo una risposta sbagliata (una nota a se stesso: per coincidenza, ieri stavo spiegando questo ai miei studenti universitari). Non sto chiedendo quanto sia significativa l'espressione (è significativa per qualcuno che ha letto il libro di testo ESL e / o ha lavorato nell'apprendimento automatico applicato), sto chiedendo un termine appropriato per questo. La domanda è positiva, non normativa. Ed è piuttosto semplice e molto concreto.
Richard Hardy,

@RichardHardy Senza la fisica, la domanda era difficile da comprendere per me. Modificata la mia risposta, vedere la registrazione errata sopra.
Carl,

1
Puoi farlo per stimare il processo, sì, e questa è la parte dell'errore riducibile. Ma quando si prevede un evento concreto che include il lancio della moneta, non è possibile ridurre l'errore associato all'anticipazione del risultato del lancio della moneta. Questo è l'errore irriducibile. Interessante: in un mondo puramente deterministico non ci sarebbero errori irriducibili per definizione, quindi se la tua visione del mondo è completamente deterministica, allora potrei capire cosa intendi. Tuttavia, il mondo è stocastico in "Gli elementi dell'apprendimento statistico" e nelle statistiche in generale.
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.