Vedi modifica.
Quando hai dati con code pesanti, fare una regressione con errori student-t sembra una cosa intuitiva da fare. Durante l'esplorazione di questa possibilità, mi sono imbattuto in questo documento:
Breusch, TS, Robertson, JC e Welsh, AH (01 novembre 1997). I nuovi abiti dell'imperatore: una critica al modello di regressione multivariata. Statistica Neerlandica, 51, 3.) ( link , pdf )
Il che sostiene che il parametro scale e il grado di libertà non sono identificabili l'uno rispetto all'altro in un certo senso e che a causa di ciò fare una regressione con errori t non fa nulla al di là di ciò che fa una regressione lineare standard.
Zellner (1976) ha proposto un modello di regressione in cui il vettore di dati (o il vettore di errore) è rappresentato come una realizzazione dalla distribuzione multivariata di Student t. Questo modello ha attirato molta attenzione perché sembra ampliare la solita ipotesi gaussiana per consentire distribuzioni di errori più pesanti. Numerosi risultati in letteratura indicano che le procedure di inferenza standard per il modello gaussiano restano appropriate sotto il più ampio presupposto distributivo, portando a rivendicazioni di solidità dei metodi standard. Mostriamo che, sebbene matematicamente i due modelli siano diversi, ai fini dell'inferenza statistica sono indistinguibili. Le implicazioni empiriche del modello multivariato sono esattamente le stesse del modello gaussiano. Quindi il suggerimento di una più ampia rappresentazione distributiva dei dati è falso e le affermazioni di robustezza sono fuorvianti. Queste conclusioni sono state raggiunte sia dal punto di vista frequentista che da quello bayesiano.
Questo mi sorprende.
Non ho la sofisticazione matematica per valutare bene i loro argomenti, quindi ho un paio di domande: è vero che fare regressioni con errori t non è generalmente utile? Se a volte sono utili, ho capito male il documento o è fuorviante? Se non sono utili, è un fatto ben noto? Esistono altri modi per tenere conto dei dati con code pesanti?
Modifica : A una lettura più approfondita, del paragrafo 3 e della sezione 4, sembra che il documento di seguito non stia parlando di ciò che stavo pensando come una regressione studente-t (gli errori sono distribuzioni univariate indipendenti). Gli errori sono invece ricavati da un'unica distribuzione e non sono indipendenti. Se capisco correttamente, questa mancanza di indipendenza è esattamente ciò che spiega perché non è possibile stimare la scala e i gradi di libertà in modo indipendente.
Immagino che questo documento fornisca un elenco di articoli per evitare di leggere.