Penso che tu abbia praticamente colpito l'unghia sulla testa nella domanda, ma vedrò se posso aggiungere qualcosa comunque. Ho intenzione di rispondere a questo in un po 'di una rotonda ...
Il campo della Robust Statistics esamina la questione di cosa fare quando l'assunzione gaussiana fallisce (nel senso che ci sono valori anomali):
si presume spesso che gli errori di dati siano normalmente distribuiti, almeno approssimativamente, o che si possa fare affidamento sul teorema del limite centrale per produrre stime normalmente distribuite. Sfortunatamente, quando ci sono valori anomali nei dati, i metodi classici spesso hanno prestazioni molto scarse
Questi sono stati applicati anche in ML, ad esempio in Mika el al. (2001) Un approccio di programmazione matematica all'algoritmo del Kernel Fisher , descrivono come la Robust Loss di Huber può essere usata con KDFA (insieme ad altre funzioni di perdita). Ovviamente si tratta di una perdita di classificazione, ma KFDA è strettamente correlata alla macchina vettoriale pertinenza (vedere la sezione 4 del documento Mika).
Come implicito nella domanda, esiste una stretta connessione tra le funzioni di perdita e i modelli di errore bayesiano (vedere qui per una discussione).
Tuttavia, non appena si iniziano a incorporare funzioni di perdita "funky", l'ottimizzazione diventa difficile (si noti che ciò accade anche nel mondo bayesiano). Pertanto, in molti casi le persone ricorrono a funzioni di perdita standard che sono facili da ottimizzare e invece effettuano pre-elaborazioni extra per garantire che i dati siano conformi al modello.
L'altro punto che citi è che il CLT si applica solo ai campioni che sono IID. Questo è vero, ma poi i presupposti (e l'analisi di accompagnamento) della maggior parte degli algoritmi sono gli stessi. Quando inizi a guardare dati non IID, le cose diventano molto più complicate. Un esempio è se esiste una dipendenza temporale, nel qual caso in genere l'approccio è quello di supporre che la dipendenza si estenda solo su una certa finestra, e quindi i campioni possono essere considerati approssimativamente IID al di fuori di questa finestra (vedere ad esempio questo brillante ma duro documento Chromatic PAC -Bayes si lega ai dati non IID: applicazioni per il posizionamento e processi di miscelazione β stazionari ), dopo di che è possibile applicare la normale analisi.
Quindi, sì, dipende in parte dalla convenienza e in parte perché nel mondo reale, la maggior parte degli errori sembrano (approssimativamente) gaussiani. Ovviamente si dovrebbe sempre fare attenzione quando si esamina un nuovo problema per assicurarsi che le ipotesi non siano violate.