Cosa si intende per varianza di * funzioni * in * Introduzione all'apprendimento statistico *?


11

A pag. 34 di Introduzione all'apprendimento statistico :

Sebbene la dimostrazione matematica esuli dallo scopo di questo libro, è possibile dimostrare che il test MSE previsto, per un dato valore x0 , può sempre essere scomposto nella somma di tre quantità fondamentali: la varianza di f^(x0) , la distorsione al quadrato di f^(x0) e la varianza dei termini di errore ε . Questo è,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] La varianza si riferisce all'importo in base al quale f^ cambierebbe se lo stimassimo utilizzando un set di dati di allenamento diverso.

Domanda: Poiché Var(f^(x0)) sembra indicare la varianza delle funzioni , cosa significa formalmente?

Cioè, ho familiarità con il concetto di varianza di una variabile casuale X , ma per quanto riguarda la varianza di un insieme di funzioni? Questo può essere considerato solo come la varianza di un'altra variabile casuale i cui valori assumono la forma di funzioni?


6
Dato che ogni volta che appare in una formula è stato applicato a un "valore dato" , la varianza si applica al numero , non a stesso. Dato che presumibilmente quel numero è stato sviluppato da dati modellati con variabili casuali, è anche una variabile casuale (valorizzata in modo reale). Si applica il solito concetto di varianza. x0 f (x0) ff^x0 f^(x0)f^
whuber

2
Vedo. Quindi sta cambiando (variando tra i diversi set di dati di addestramento), ma guardiamo ancora alla varianza degli stessi . f (x0)f^f^(x0)
George,

Chi è l'autore di questo libro di testo? Volevo imparare l'argomento da solo e apprezzerei molto la tua raccomandazione di riferimento.
Chill2Macht,

3
@WilliamKrinsman Questo è il libro: www-bcf.usc.edu/~gareth/ISL
Matthew Drury

Risposte:


13

La tua corrispondenza con @whuber è corretta.

Un algoritmo di apprendimento può essere visto come una funzione di livello superiore, mappando i set di allenamento su funzioni.A

A:T{ff:XR}

dove è lo spazio di possibili set di allenamento. Questo può essere un po 'peloso concettualmente, ma sostanzialmente ogni singolo set di allenamento risulta, dopo aver usato l'algoritmo di training del modello, in una funzione specifica che può essere usata per fare previsioni dato un punto dati . f xTfx

Se consideriamo lo spazio dei set di allenamento come uno spazio di probabilità, in modo tale che vi sia una certa distribuzione di possibili set di dati di allenamento, l'algoritmo di training del modello diventa una variabile casuale valutata in base alla funzione e possiamo pensare a concetti statistici. In particolare, se fissiamo un punto dati specifico , otteniamo la variabile casuale a valori numericix0

Ax0(T)=A(T)(x0)

Vale a dire, prima addestrare l'algoritmo su , quindi valutare il modello risultante su . Questa è semplicemente una vecchia variabile casuale, ma piuttosto ingegnosamente costruita, su uno spazio di probabilità, quindi possiamo parlare della sua varianza. Questa è la varianza nella tua formula dall'ISL.x 0Tx0


5

Un'interpretazione visiva che utilizza ripetute cartelle

Per dare un'interpretazione visiva / intuitiva alla risposta di @Matthew Drury, considera il seguente esempio di giocattolo.

  • I dati vengono generati dalla curva sinusoidale rumorosa: "True noise"f(x) +
  • I dati sono suddivisi tra campioni di addestramento e test (75% - 25%)
  • Un modello lineare (polinomiale) è adattato ai dati di allenamento:f^(x)
  • Il processo viene ripetuto più volte utilizzando gli stessi dati (ad es. Suddivisione dell'allenamento - test in modo casuale utilizzando kfold ripetuto Sklearm)
  • Questo genera molti modelli diversi, dai quali calcoliamo la media e la varianza in ciascun punto nonché su tutti i punti.x=xi

Vedi sotto per i grafici risultanti per un modello polinomiale di grado 2 e grado 6. A prima vista, sembra che il polinomio superiore (in rosso) abbia una varianza maggiore.

inserisci qui la descrizione dell'immagine

Sostenere che il grafico rosso ha una maggiore varianza, a livello sperimentale

Sia e corrispondano rispettivamente ai grafici verde e rosso e sia un'istanza dei grafici, in verde chiaro e rosso chiaro. Sia il numero di punti lungo l' asse e sia il numero di grafici (ovvero il numero di simulazioni). Qui abbiamo e f r f (i)nxmn=400m=200f^gf^rf^(i)nxmn=400m=200

Vedo tre scenari principali

  1. La varianza dei valori previsti in un punto specifico è maggiore, ovverox=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. La varianza in è maggiore per tutti i punti nell'intervallo { x 1 , . . . , x 400 } ( 0 , 1 )(1) {x1,...,x400}(0,1)
  3. La varianza è mediamente maggiore (cioè può essere inferiore per alcuni punti)

Nel caso di questo esempio di giocattolo, tutti e tre gli scenari sono validi nell'intervallo che giustifica l'argomento secondo cui l'adattamento polinomiale di ordine superiore (in rosso) ha una varianza maggiore rispetto al polinomio di ordine inferiore (in verde).(0,1)

Una conclusione aperta

Cosa dovrebbe essere discusso quando i tre scenari di cui sopra non valgono tutti . Ad esempio, cosa succede se la varianza delle previsioni rosse è mediamente maggiore, ma non per tutti i punti.

Dettagli delle etichette

Considerare il puntox0=0.5

  • La barra di errore è l'intervallo tra min e max dif^(x0)
  • La varianza viene calcolata inx0
  • La vera è la linea blu tratteggiataf(x)

Mi piace questa idea di illustrare un concetto usando le immagini. Tuttavia, mi chiedo due aspetti del tuo post e spero che tu possa affrontarli. Innanzitutto, potresti spiegare più esplicitamente come questi grafici mostrano la "varianza di una funzione"? In secondo luogo, non è affatto chiaro che la trama rossa mostri "maggiore varianza" o che i due grafici siano suscettibili di un confronto così semplicistico. Considera la diffusione verticale dei valori rossi sopra per esempio, e confrontala con la diffusione dei valori verdi nello stesso punto: quelli rossi sembrano un po ' meno sparsi di quelli verdi. x=0.95,
whuber

Il mio punto non è se sia possibile leggere i tuoi grafici con alta precisione: è che il significato del confronto tra due grafici come se uno potesse essere considerato di varianza "maggiore" o "inferiore" rispetto all'altro è discutibile, data la possibilità che per alcuni intervalli di le varianze delle previsioni saranno più alti in un grafico e per altri intervalli di le variazioni saranno inferiori. xxx
whuber

Sì, sono d'accordo - ho modificato il post per riflettere i tuoi commenti
Xavier Bourret Sicotte,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.