Perché alcune persone testano ipotesi modello di regressione sui loro dati grezzi e altre persone li testano sul residuo?


12

Sono un dottorando in psicologia sperimentale e faccio del mio meglio per migliorare le mie capacità e conoscenze su come analizzare i miei dati.

Fino al mio quinto anno di psicologia, ho pensato che i modelli simili alla regressione (ad es. ANOVA) assumessero le seguenti cose:

  • normalità dei dati
  • omogeneità di varianza per i dati e così via

I miei corsi di laurea mi portano a credere che le ipotesi riguardassero i dati. Tuttavia, nel mio quinto anno, alcuni dei miei istruttori hanno sottolineato il fatto che le ipotesi riguardano l'errore (stimato dai residui) e non i dati grezzi.

Di recente ho parlato della domanda sui presupposti con alcuni dei miei colleghi che hanno anche ammesso di aver scoperto l'importanza di verificare i presupposti sul residuo solo negli ultimi anni di università.

Se capisco bene, i modelli simili alla regressione fanno ipotesi sull'errore. Quindi ha senso controllare le ipotesi sui residui. In tal caso, perché alcune persone controllano i presupposti sui dati grezzi? È perché tale procedura di controllo approssima ciò che otterremmo controllando il residuo?

Sarei molto interessato a una discussione su questo problema con alcune persone che hanno una conoscenza più accurata dei miei colleghi e I. Vi ringrazio anticipatamente per le vostre risposte.

Risposte:


13

Fondamentalmente, sei sulla strada giusta. Troverai una discussione sull'aspetto della normalità nella Normalità della variabile dipendente = normalità dei residui?

Alcune ipotesi del classico modello lineare riguardano effettivamente gli errori (usando i residui come realizzazione di essi):

  • Non sono correlati? (Rilevante per inferenza e ottimalità degli stimatori OLS)
  • Hanno una varianza uguale? (Rilevante per inferenza e ottimalità degli stimatori OLS)
  • Sono centrati attorno a 0? (Presupposto chiave per ottenere stime e previsioni imparziali)
  • Se il campione è molto piccolo: sono normali o almeno distribuiti simmetricamente? (Rilevante per inferenza)

Altre condizioni riguardano i "dati non elaborati":

  • Non ci sono valori anomali nei regressori? (Le osservazioni ad alta leva possono distruggere l'intero modello)
  • Nessuna perfetta multicollinearità? (Provocherebbe problemi computazionali, almeno in alcuni pacchetti software)

Ora, anche il tuo insegnante universitario potrebbe essere corretto:

  • Forse ti stavi concentrando su test univariati come il test t di un campione. Lì, le ipotesi riguardano i dati grezzi.
  • Se è piuttosto basso e la variabile di risposta sembra tutto tranne che normale, lo stesso sarà probabilmente vero anche per i residui.R2
  • Come verifichi l'omoscedasticità ecc. In base a dati non elaborati? Forse l'hai frainteso.

Ok grazie mille per la tua risposta e per il link che è molto utile. Alcuni dei miei colleghi e io abbiamo creduto fino a poco tempo fa che i dati grezzi dovessero avere le stesse variazioni. Come hai detto, forse abbiamo perso qualcosa nei nostri corsi. In alcuni libri possiamo leggere quanto segue:
Psychokwak,

"Le procedure statistiche più comuni fanno due ipotesi rilevanti per questo argomento: (a) un'ipotesi che le variabili (o i loro termini di errore, più tecnicamente) siano normalmente distribuite, e (b) un'ipotesi di uguaglianza di varianza (omoscedasticità o omogeneità di varianza), nel senso che la varianza della variabile rimane costante nell'intervallo osservato di qualche altra variabile. " Significa che quando si parla di "variabile" si parla sistematicamente di "loro termini di errore"? In tal caso, sto bene, ma senza menzione esplicita è tutt'altro che ovvio (almeno per me).
Psychokwak,

Infine, ho un'ultima domanda sulle tue risposte. Se t-test e ANOVA sono casi particolari della regressione, perché le ipotesi riguardano i dati in un t-test di un campione? Grazie ancora per la tua risposta utile.
Psychokwak,

1
Per rispondere al tuo ultimo commento: il test t di un campione può anche essere visto come un caso speciale di regressione. Il modello consiste semplicemente dell'intercetta (= media) e del termine di errore, ovvero la risposta è un errore spostato. Poiché i turni sono irrilevanti per qualsiasi ipotesi, equivale a parlare di dati o residui.
Michael M,

4

Trovo inutile la differenziazione tra i residui e i dati grezzi poiché entrambi si riferiscono più al tuo campione reale e non alla distribuzione della popolazione sottostante. È meglio pensare che alcuni requisiti siano "requisiti di gruppo" e altri "tra ipotesi di gruppo".

Ad esempio, l'omonenità della varianza è un "presupposto tra gruppi" in quanto afferma che la varianza all'interno del gruppo è la stessa per tutti i gruppi.

La normalità è un presupposto "all'interno del gruppo" che richiede che all'interno di ciascun gruppo y sia distribuito normalmente.

Nota che avere la normalità su tutto il tuo y di solito significa che non hai alcun effetto - guarda la distribuzione del genere senza differenziare tra femmine e maschi. Non sarà normalmente distribuito, a causa del forte effetto di genere. Ma all'interno di ogni genere tiene abbastanza bene.


1
Grazie anche per la tua risposta. È un modo interessante di vedere la domanda. Non avevo mai pensato alla normalità in modo tale (cioè che "avere la normalità sull'intero y di solito significa che [noi] non abbiamo alcun effetto").
Psychokwak,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.