Da dove viene l'idea sbagliata secondo cui Y deve essere normalmente distribuito?


45

Fonti apparentemente affidabili sostengono che la variabile dipendente deve essere normalmente distribuita:

Ipotesi del modello: Y è normalmente distribuito, gli errori sono normalmente distribuiti, eiN(0,σ2) e indipendente, e X è fisso e varianza costante σ2 .

Penn State, STAT 504 Analisi di dati discreti

In secondo luogo, l'analisi della regressione lineare richiede che tutte le variabili siano multivariate normali.

StatisticsSolutions, Presupposti di regressione lineare

Questo è appropriato quando la variabile di risposta ha una distribuzione normale

Wikipedia, modello lineare generalizzato

C'è una buona spiegazione di come o perché questo malinteso si è diffuso? La sua origine è nota?

Relazionato


17
Triste. Stai facendo una buona azione qui ...
jbowman

7
Non conosco alcuna situazione che usi la regressione lineare che richiede che la distribuzione marginale di , o che l'articolazione di tutte le variabili sia normale multivariata. Mi sembrano idee sbagliate. Y
Matthew Drury,

8
@MichaelChernick "Y è normalmente distribuito" è palesemente falso. Dai un'occhiata in R: X <- runif(n=100)poi Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)gioca con gli istogrammi per convincerti che né X né Y sono normalmente distribuiti. Quindi summary(lm(Y ~ X)), e presta molta attenzione a quanto l'intercetta è vicina a 3 e la pendenza di X è a 0,5. Il presupposto è che gli errori siano normalmente distribuiti.
Alexis,

9
@Alexis Credo che Michael stesse cercando di dire è che le ipotesi multivariate sulla Normalità sono sufficienti ma non necessarie. Questo è chiaramente come si dovrebbe leggere la citazione di Wikipedia. La seconda citazione ovviamente è errata nell'affermare che tali ipotesi sono necessarie. La prima citazione è ambigua, ma potrebbe essere generosamente letta nel senso chiarito da Michael.
whuber

6
Tutto quello che stavo dicendo era che il presupposto della normalità implica determinate proprietà. Ad esempio nella regressione lineare semplice se si presume che i termini di errore siano iid normali con zero media e varianza costante, la stima dei minimi quadrati dei parametri di regressione è la massima probabilità. Mantenere tutte le ipotesi, tranne i minimi quadrati della normalità, non è più la massima probabilità ma è comunque imparziale la varianza minima.
Michael Chernick,

Risposte:


13

'Y deve essere normalmente distribuito'

dovere?


Nei casi in cui dici che è un linguaggio sciatto (abbreviando "l'errore in Y deve essere normalmente distribuito" ), ma in realtà non dicono (fortemente) che la risposta deve essere normalmente distribuita, o almeno non sembra che le loro parole fossero intese in quel modo.

Il materiale del corso Penn State

YYi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

YYi

  • quando si spiega una variante di GLM (regressione logistica binaria),

    YBinomial(n,π)

  • in qualche definizione

    YYY

YiY

  • Yi

La pagina web di statssolutions

è una descrizione estremamente breve, semplificata e stilizzata. Non sono sicuro che dovresti prenderlo sul serio. Ad esempio, ne parla

.. richiede che tutte le variabili siano normali multivariate ...

quindi questa non è solo la variabile di risposta,

e anche il descrittore "multivariato" è vago. Non sono sicuro di come interpretarlo.

L'articolo di Wikipedia

ha un contesto aggiuntivo spiegato tra parentesi:

La regressione lineare ordinaria prevede il valore atteso di una determinata quantità sconosciuta (la variabile di risposta, una variabile casuale) come una combinazione lineare di un insieme di valori osservati (predittori) . Ciò implica che un cambiamento costante in un predittore porta a un cambiamento costante nella variabile di risposta (cioè un modello di risposta lineare). Ciò è appropriato quando la variabile di risposta ha una distribuzione normale (intuitivamente, quando una variabile di risposta può variare sostanzialmente indefinitamente in entrambe le direzioni senza "valore zero" fisso, o più in generale per qualsiasi quantità che varia solo di una quantità relativamente piccola, ad esempio umana altezza).

y+ϵϵN(0,σ)

La riga particolare è stata aggiunta l' 8 marzo 2012 , ma si noti che la prima riga dell'articolo di Wikipedia legge ancora "una generalizzazione flessibile della regressione lineare ordinaria che consente variabili di risposta che hanno modelli di distribuzione dell'errore diversi da una distribuzione normale" e non è così tanto (non ovunque) sbagliato.


Conclusione

Quindi, sulla base di questi tre esempi (che in effetti potrebbero generare idee sbagliate, o almeno potrebbero essere fraintesi) non direi che "questa idea sbagliata si è diffusa" . O almeno non mi sembra che l'intenzione di questi tre esempi sia quella di sostenere che Y deve essere normalmente distribuito (anche se ricordo che questo problema è sorto prima qui su stackexchange, lo scambio tra errori normalmente distribuiti e variabili di risposta normalmente distribuite è facile da realizzare).

Quindi, il presupposto che "Y debba essere normalmente distribuito" non mi sembra una credenza / idea sbagliata diffusa (come in qualcosa che si diffonde come un'aringa rossa), ma più come un errore comune (che non viene diffuso ma fatto in modo indipendente ogni volta ).


Commento aggiuntivo

Un esempio dell'errore su questo sito Web è nella seguente domanda

Cosa succede se i residui sono normalmente distribuiti, ma y non lo è?

Considererei questo come una domanda per principianti. Non è presente nei materiali come il materiale del corso Penn State, il sito Web di Wikipedia, e recentemente ha notato nei commenti il ​​libro "Estendere la regressione lineare con R".

Gli autori di tali lavori comprendono correttamente il materiale. In effetti, usano frasi come "Y deve essere normalmente distribuita", ma in base al contesto e alle formule utilizzate puoi vedere che significano tutti "Y, subordinato a X, deve essere normalmente distribuito" e non "Y marginale deve essere distribuito normalmente ". Non intendono male l'idea stessa, e almeno l'idea non è diffusa tra gli statistici e le persone che scrivono libri e altro materiale didattico. Ma interpretare male le loro parole ambigue può effettivamente causare l'idea sbagliata.


3
+1 Detto questo: penso che tutti abbiamo visto molte domande che affermano la normalità marginale di Y qui intorno ... c'è un po 'di malinteso. :)
Alexis,

Sì, sono d'accordo sul fatto che l'ipotesi di "y normalmente distribuito" si verifica spesso (non sono riuscito a trovare facilmente degli esempi, ma ciò potrebbe essere dovuto al fatto che le persone descrivono queste cose tra le righe e non con semplici parole chiave). Tuttavia, credo che questo sia più qualcosa che è "comune", non qualcosa che è tanto " diffuso ". E almeno, certamente i tre esempi forniti dall'OP non sono molto forti (non forti nel senso di indicare la diffusione del malinteso, sebbene descrivano l'uso patologico del linguaggio e come possano originare gli errori).
Sesto Empirico

@Martijn Weterings: Vorrei essere in disaccordo con la tua affermazione "Non direi che questo malinteso si è diffuso". Nel suo libro Extending the Linear Regression with R, usato come richiesto dalla lettura in una serie di programmi di statistica per laureati, Julian Faraway afferma a pagina xi nella prefazione di questo libro che "Il modello lineare standard non può gestire risposte non normali, y, tali come conteggi o proporzioni ".
ColorStatistics

n1(r1)(c1)

1
y=β0+β1x1+...βpxp+ϵϵla risposta dovrebbe avere la particolare distribuzione menzionata.
Sesto Empirico

29

C'è una buona spiegazione di come / perché questo malinteso si è diffuso? La sua origine è nota?

In genere insegniamo agli studenti una versione "semplificata" delle statistiche in molte discipline. Sono in psicologia e quando provo a dire agli studenti universitari che i valori p sono "la probabilità dei dati - o dati più estremi - dato che l'ipotesi nulla è vera", i colleghi mi dicono che sto coprendo più dettagli di quelli di cui ho bisogno coprire. Che lo sto rendendo più difficile di quanto non debba essere, ecc. Dato che gli studenti in classe hanno una così vasta gamma di conforto (o mancanza) con le statistiche, gli istruttori generalmente lo rendono semplice: "Riteniamo che sia un risultato affidabile se p <.05 ", ad esempio, invece di fornire loro la definizione effettiva di un valore p .

Penso che sia qui la spiegazione del perché l'idea sbagliata si è diffusa. Ad esempio, è possibile scrivere il modello come:

Y=β0+β1X+ϵϵN(0,σϵ2)

Questo può essere riscritto come:

Y|XN(β0+β1X,σϵ2)

Ciò significa che "Y, subordinato a X, è normalmente distribuito con una media dei valori previsti e una certa varianza".

Questo è difficile da spiegare, così come le persone stenografiche potrebbero semplicemente dire: "Y deve essere normalmente distribuito". O quando è stato spiegato loro in origine, le persone hanno frainteso la parte condizionale, poiché è, onestamente, confusa.

Quindi, nel tentativo di non rendere le cose terribilmente complicate, gli istruttori semplificano semplicemente ciò che stanno dicendo per non confondere eccessivamente la maggior parte degli studenti. E poi le persone continuano nella loro educazione statistica o pratica statistica con quel malinteso. Io stesso non ho compreso appieno il concetto fino a quando non ho iniziato a fare la modellazione bayesiana a Stan, il che richiede che tu scriva le tue assunzioni in questo modo:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Inoltre, in molti pacchetti statistici con una GUI (ti guarda, SPSS), è più facile controllare se la distribuzione marginale è normalmente distribuita (istogramma semplice) che controllare se i residui sono normalmente distribuiti (esegui regressione, salvare i residui, eseguire l'istogramma su tali residui).

Pertanto, penso che l'idea sbagliata sia dovuta principalmente agli istruttori che cercano di radere i dettagli per evitare che gli studenti diventino confusi, autentici e comprensibili tra le persone che la apprendono nel modo corretto, ed entrambi rafforzati dalla facilità di controllare la normalità marginale nel pacchetti statistici più intuitivi.


2
Penso che tu abbia ragione. Molte persone non comprendono la parte condizionale. Pensano solo che siano distribuiti normalmente.
SmallChess,

3
Sono d'accordo che questa potrebbe essere "una" delle modalità con cui si verifica / si diffonde questo errore. Il materiale del corso Penn State, tuttavia, mi sembra non dovuto a questa semplificazione "intenzionale" ed è dovuto anche alla scrittura di notazioni sciatte. È un po 'come piccole note (ovviamente). O come commenti su stackexchange, semplificazioni nella lingua. In alcuni punti usano le parole giuste. (personalmente, i miei schemi / diagrammi sono migliori delle mie parole / formule, ma ciò non significa che ciò che scrivo, se è sbagliato, è necessariamente un'idea sbagliata)
Sisto Empirico

1
@MartijnWeterings Concordato: è molto facile confondere qualcuno non usando un linguaggio specifico. È difficile essere sempre specifici con la tua lingua in qualcosa di astratto come ipotesi statistiche e molte persone intelligenti fanno errori semplici, portando a idee sbagliate diffuse come questa.
Mark White,

1
MarkWhite, apprezzo molto l'attenzione che rivolgi a come insegniamo ... Penso che parli in modo importante all'interesse del PO per la "diffusione del malinteso" (oltre alle sfumature di ciò che è e ciò che non è un malinteso ).
Alexis,

16

L'analisi di regressione è difficile per i principianti perché ci sono risultati diversi che sono implicati da diverse ipotesi iniziali. I presupposti più deboli possono giustificare alcuni dei risultati, ma è possibile ottenere risultati più forti quando si aggiungono presupposti più forti. Le persone che non hanno familiarità con la piena derivazione matematica dei risultati possono spesso fraintendere le ipotesi richieste per un risultato, sia posando il loro modello troppo debolmente per ottenere un risultato richiesto, sia ponendo ipotesi non necessarie nella convinzione che queste sono necessarie per un risultato .

Sebbene sia possibile aggiungere ipotesi più forti per ottenere risultati aggiuntivi, l'analisi di regressione si occupa della distribuzione condizionale del vettore di risposta. Se un modello va oltre questo, allora sta entrando nel territorio dell'analisi multivariata e non è strettamente (solo) un modello di regressione. La questione è ulteriormente complicata dal fatto che è comune fare riferimento a risultati distributivi in ​​regressione senza fare sempre attenzione a specificare che sono distribuzioni condizionate (date le variabili esplicative nella matrice di progettazione). Nei casi in cui i modelli vadano oltre le distribuzioni condizionali (ipotizzando una distribuzione marginale per i vettori esplicativi) l'utente dovrebbe fare attenzione a specificare questa differenza; purtroppo le persone non sono sempre attente a questo.


Modello di regressione lineare omoschedastica: il primo punto di partenza che viene solitamente utilizzato è quello di assumere la forma del modello e i primi due momenti di errore senza alcuna assunzione di normalità:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Questa configurazione è sufficiente per consentire di ottenere lo stimatore OLS per i coefficienti, lo stimatore imparziale per la varianza dell'errore, i residui e i momenti di tutte queste quantità casuali (subordinato alle variabili esplicative nella matrice di progettazione). Non consente di ottenere la distribuzione condizionale completa di queste quantità, ma consente di fare appello alle distribuzioni asintotiche se è grande e alcuni presupposti aggiuntivi sono posti sul comportamento limitante di . Per andare oltre è comune assumere una forma distributiva specifica per il vettore di errore.xnx

Errori normali: la maggior parte dei trattamenti del modello di regressione lineare omoschedastica presuppone che il vettore dell'errore sia normalmente distribuito, il che in combinazione con le ipotesi del momento fornisce:

ε|xN(0,σ2I).

Questa ipotesi aggiuntiva è sufficiente per garantire che lo stimatore OLS per i coefficienti sia l'MLE per il modello, e significa anche che lo stimatore di coefficienti e i residui sono normalmente distribuiti e che lo stimatore per la varianza dell'errore ha una distribuzione chi-quadrato in scala (tutti in base alle variabili esplicative nella matrice di progettazione). Assicura inoltre che il vettore di risposta sia distribuito normalmente in modo condizionale. Ciò conferisce risultati distributivi condizionati dalle variabili esplicative nell'analisi, che consente la costruzione di intervalli di confidenza e test di ipotesi. Se l'analista desidera ottenere risultati sulla distribuzione marginale della risposta, deve andare oltre e assumere una distribuzione per le variabili esplicative nel modello.

Variabili esplicative congiuntamente normali: alcuni trattamenti del modello di regressione lineare omoscedastica vanno oltre i trattamenti standard e non condizionano su variabili esplicative fisse. (Probabilmente si tratta di una transizione dalla modellazione della regressione all'analisi multivariata.) Il modello più comune di questo tipo presuppone che i vettori esplicativi siano vettori casuali IID normali normali. Lasciando sia l' esimo vettore esplicativo (la esima riga della matrice di progettazione) abbiamo: i iX(i)ii

X(1),...,X(n)IID N(μX,ΣX).

Questa ipotesi aggiuntiva è sufficiente per garantire che il vettore di risposta sia distribuito marginalmente normalmente. Questo è un presupposto forte e di solito non è imposto nella maggior parte dei problemi. Come detto, questo porta il modello al di fuori del territorio della modellazione di regressione e nell'analisi multivariata.


1
Ho trovato molto approfondito il modo in cui hai introdotto assunzioni più forti una per una e ho descritto le implicazioni.
ColorStatistics
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.