Le regressioni con errori student-t sono inutili?


10

Vedi modifica.

Quando hai dati con code pesanti, fare una regressione con errori student-t sembra una cosa intuitiva da fare. Durante l'esplorazione di questa possibilità, mi sono imbattuto in questo documento:

Breusch, TS, Robertson, JC e Welsh, AH (01 novembre 1997). I nuovi abiti dell'imperatore: una critica al modello di regressione multivariata. Statistica Neerlandica, 51, 3.) ( link , pdf )

Il che sostiene che il parametro scale e il grado di libertà non sono identificabili l'uno rispetto all'altro in un certo senso e che a causa di ciò fare una regressione con errori t non fa nulla al di là di ciò che fa una regressione lineare standard.

Zellner (1976) ha proposto un modello di regressione in cui il vettore di dati (o il vettore di errore) è rappresentato come una realizzazione dalla distribuzione multivariata di Student t. Questo modello ha attirato molta attenzione perché sembra ampliare la solita ipotesi gaussiana per consentire distribuzioni di errori più pesanti. Numerosi risultati in letteratura indicano che le procedure di inferenza standard per il modello gaussiano restano appropriate sotto il più ampio presupposto distributivo, portando a rivendicazioni di solidità dei metodi standard. Mostriamo che, sebbene matematicamente i due modelli siano diversi, ai fini dell'inferenza statistica sono indistinguibili. Le implicazioni empiriche del modello multivariato sono esattamente le stesse del modello gaussiano. Quindi il suggerimento di una più ampia rappresentazione distributiva dei dati è falso e le affermazioni di robustezza sono fuorvianti. Queste conclusioni sono state raggiunte sia dal punto di vista frequentista che da quello bayesiano.

Questo mi sorprende.

Non ho la sofisticazione matematica per valutare bene i loro argomenti, quindi ho un paio di domande: è vero che fare regressioni con errori t non è generalmente utile? Se a volte sono utili, ho capito male il documento o è fuorviante? Se non sono utili, è un fatto ben noto? Esistono altri modi per tenere conto dei dati con code pesanti?

Modifica : A una lettura più approfondita, del paragrafo 3 e della sezione 4, sembra che il documento di seguito non stia parlando di ciò che stavo pensando come una regressione studente-t (gli errori sono distribuzioni univariate indipendenti). Gli errori sono invece ricavati da un'unica distribuzione e non sono indipendenti. Se capisco correttamente, questa mancanza di indipendenza è esattamente ciò che spiega perché non è possibile stimare la scala e i gradi di libertà in modo indipendente.

Immagino che questo documento fornisca un elenco di articoli per evitare di leggere.


sei sicuro di poter distribuire la carta tramite dropbox. meglio doppio controllo.
Toby El Tejedor,

penso che la distribuzione sul posto ti dia l'opportunità di trattare le code pesanti in una certa misura.
Toby El Tejedor,

Risposte:


5

La tua modifica è corretta. I risultati presentati nel documento si applicano solo agli errori multivariati-t. Se stai usando errori t indipendenti, allora sei al sicuro.

Non penso che il documento sia ben noto, ma penso che sia corretto.

La letteratura statistica è piena di "generalizzazioni" che in molti casi sono o riparametrizzazioni, trasformazioni individuali o talvolta inutili perché non contribuiscono in modo significativo a generalizzare alcune proprietà del modello in questione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.