Perché supponiamo che l'errore sia normalmente distribuito?


17

Mi chiedo perché utilizziamo il presupposto gaussiano quando modelliamo l'errore. Nel corso ML di Stanford , il Prof. Ng lo descrive sostanzialmente in due modi:

  1. È matematicamente conveniente. (È correlato al montaggio dei minimi quadrati e facile da risolvere con pseudoinverso)
  2. A causa del teorema del limite centrale, possiamo supporre che ci siano molti fatti sottostanti che influenzano il processo e la somma di questi singoli errori tenderà a comportarsi come in una distribuzione normale media zero. In pratica, sembra essere così.

In realtà sono interessato alla seconda parte. Il Teorema del limite centrale funziona per i campioni iid per quanto ne so, ma non possiamo garantire che i campioni sottostanti siano iid.

Hai qualche idea sull'ipotesi gaussiana dell'errore?


Di quale ambiente stai parlando? Classificazione, regressione o qualcosa di più generale?
TCD

Ho posto la domanda per il caso generale. La maggior parte delle storie inizia con l'ipotesi di errore gaussiano. Ma, personalmente, il mio interesse sono le fattorizzazioni matriciali e le soluzioni di modelli lineari (per esempio la regressione).
petrichor,

Risposte:


9

Penso che tu abbia praticamente colpito l'unghia sulla testa nella domanda, ma vedrò se posso aggiungere qualcosa comunque. Ho intenzione di rispondere a questo in un po 'di una rotonda ...

Il campo della Robust Statistics esamina la questione di cosa fare quando l'assunzione gaussiana fallisce (nel senso che ci sono valori anomali):

si presume spesso che gli errori di dati siano normalmente distribuiti, almeno approssimativamente, o che si possa fare affidamento sul teorema del limite centrale per produrre stime normalmente distribuite. Sfortunatamente, quando ci sono valori anomali nei dati, i metodi classici spesso hanno prestazioni molto scarse

Questi sono stati applicati anche in ML, ad esempio in Mika el al. (2001) Un approccio di programmazione matematica all'algoritmo del Kernel Fisher , descrivono come la Robust Loss di Huber può essere usata con KDFA (insieme ad altre funzioni di perdita). Ovviamente si tratta di una perdita di classificazione, ma KFDA è strettamente correlata alla macchina vettoriale pertinenza (vedere la sezione 4 del documento Mika).

Come implicito nella domanda, esiste una stretta connessione tra le funzioni di perdita e i modelli di errore bayesiano (vedere qui per una discussione).

Tuttavia, non appena si iniziano a incorporare funzioni di perdita "funky", l'ottimizzazione diventa difficile (si noti che ciò accade anche nel mondo bayesiano). Pertanto, in molti casi le persone ricorrono a funzioni di perdita standard che sono facili da ottimizzare e invece effettuano pre-elaborazioni extra per garantire che i dati siano conformi al modello.

L'altro punto che citi è che il CLT si applica solo ai campioni che sono IID. Questo è vero, ma poi i presupposti (e l'analisi di accompagnamento) della maggior parte degli algoritmi sono gli stessi. Quando inizi a guardare dati non IID, le cose diventano molto più complicate. Un esempio è se esiste una dipendenza temporale, nel qual caso in genere l'approccio è quello di supporre che la dipendenza si estenda solo su una certa finestra, e quindi i campioni possono essere considerati approssimativamente IID al di fuori di questa finestra (vedere ad esempio questo brillante ma duro documento Chromatic PAC -Bayes si lega ai dati non IID: applicazioni per il posizionamento e processi di miscelazione β stazionari ), dopo di che è possibile applicare la normale analisi.

Quindi, sì, dipende in parte dalla convenienza e in parte perché nel mondo reale, la maggior parte degli errori sembrano (approssimativamente) gaussiani. Ovviamente si dovrebbe sempre fare attenzione quando si esamina un nuovo problema per assicurarsi che le ipotesi non siano violate.


1
+1 Grazie mille soprattutto per aver menzionato statistiche affidabili e non. Osservo che la media mediana e alfa-tagliata di solito funziona meglio della media in pratica, ma non conoscevo la teoria alla base.
petrichor,

3
Un altro elemento di convenienza associato ai dati normalmente distribuiti è che la correlazione 0 implica indipendenza.
AdamO,

3
Il commento su IID-ness non è del tutto corretto. Esistono (diversi) teoremi del limite centrale molto generali che si applicano quando i risultati sono indipendenti ma non distribuiti in modo identico; vedi ad esempio il Lindeberg CLT. Ci sono anche risultati CLT che non hanno nemmeno bisogno di indipendenza; possono derivare da osservazioni intercambiabili, per esempio.
ospite
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.