Come posso eseguire una regressione su dati non normali che rimangono non normali quando trasformati?


15

Ho alcuni dati (158 casi) derivati ​​da una risposta in scala Likert a 21 articoli del questionario. Voglio davvero / ho bisogno di eseguire un'analisi di regressione per vedere quali elementi del questionario prevedono la risposta a un elemento complessivo (soddisfazione). Le risposte non sono normalmente distribuite (secondo i test di KS) e l'ho trasformata in tutti i modi a cui riesco a pensare (inverso, log, log10, sqrt, quadrato) e si rifiuta ostinatamente di essere normalmente distribuito. La trama residua guarda dappertutto, quindi credo che non sia legittimo fare una regressione lineare e fingere che si comporti normalmente (non è nemmeno una distribuzione di Poisson). Penso che ciò sia dovuto al fatto che le risposte sono strettamente raggruppate (la media è 3.91, IC 95% da 3,88 a 3,95).

Quindi, sto pensando che o ho bisogno di un nuovo modo di trasformare i miei dati o ho bisogno di una sorta di regressione non parametrica, ma non conosco nulla di ciò che posso fare in SPSS.


1
Considera una trasformazione Box-Cox ( en.wikipedia.org/wiki/… ). Aggiungere la trama residua alla tua domanda può essere utile.
M. Berk,

3
Sì, ti preghiamo di mostrarci la trama dei residui. forse anche una trama qq.
David Marx,

5
Se i tuoi valori sono discreti, specialmente se sono ridotti a un'estremità, potrebbe non esserci alcuna trasformazione che renderà il risultato anche più o meno normale. Ma i test formali di ipotesi sulla normalità non rispondono alla domanda giusta e fanno sì che le altre procedure che vengono intraprese dipendano dal rifiuto della normalità di non avere più le loro proprietà nominali.
Glen_b -Restate Monica

1
la regressione logistica a probabilità proporzionali sarebbe probabilmente un approccio sensato a questa domanda, ma non so se sia disponibile in SPSS.
Ben Bolker,

3
Non sono convinto che la regressione sia l'approccio giusto e non a causa delle preoccupazioni relative alla normalità. Le risposte al questionario potrebbero non essere nemmeno cardinali. Ad esempio, se chiedi a un ragazzo "Sei felice?" E ottieni la risposta 3, mentre il mese scorso erano 4, significa che è il 25% meno felice? Molto probabilmente no. Quindi, prima ancora di iniziare a pensare alla normalità, devi capire se hai persino a che fare con i numeri cardinali e non solo con quelli ordinali. Esistono modi speciali di gestire pensieri come i sondaggi e la regressione non è la scelta predefinita. Devi prima mostrare che è appropriato
Aksakal

Risposte:


32

Non è necessario assumere distribuzioni normali per eseguire la regressione. La regressione dei minimi quadrati è lo stimatore BLU (miglior stimatore lineare, non distorto) indipendentemente dalle distribuzioni. Vedi il teorema di Gauss-Markov (ad es. Wikipedia) Una distribuzione normale viene utilizzata solo per mostrare che lo stimatore è anche lo stimatore della massima verosimiglianza. È un malinteso comune che in qualche modo OLS assuma dati normalmente distribuiti. Non è così. È molto più generale.


2
Questo è così vero Per molte persone spesso ignorano questo FATTO.
Repmat

d'accordo con @Repmat. Non sono sicuro di aver mai superato un test di normalità ... ma i miei modelli funzionano.
HEITZ,

5

Invece di fare affidamento su un test per la normalità dei residui, prova a valutare la normalità con un giudizio razionale. I test di normalità non ti dicono che i tuoi dati sono normali, solo che non lo sono. Ma dato che i dati sono un campione, puoi essere certo che non sono effettivamente normali senza un test. Il requisito è approssimativamente normale. Il test non te lo può dire. I test diventano anche molto sensibili a grandi N o, più seriamente, variano in sensibilità con N. La tua N è in quel range in cui la sensibilità inizia ad aumentare. Se esegui la seguente simulazione in R un numero di volte e guardi i grafici, vedrai che il test di normalità sta dicendo "non normale" su un buon numero di distribuzioni normali.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Si spera che, dopo aver superato le simulazioni, si possa vedere che un test di normalità può facilmente rifiutare dati dall'aspetto abbastanza normale e che i dati di una distribuzione normale possono sembrare abbastanza lontani dal normale. Se vuoi vedere un valore estremo di quello prova n <- 1000. Le distribuzioni appariranno tutte normali ma continueranno a non superare il test alla stessa velocità dei valori N inferiori. E viceversa, con una bassa N distribuzioni che superano il test possono sembrare molto lontane dalla norma.

Il diagramma residuo standard in SPSS non è estremamente utile per valutare la normalità. Puoi vedere gli outlier, la gamma, la bontà di adattamento e forse anche la leva. Ma è difficile derivarne la normalità. Prova la seguente simulazione confrontando istogrammi, grafici normali quantile-quantili e grafici residui.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

È straordinariamente difficile distinguere la normalità, o molto altro, dall'ultima trama e quindi non terribilmente diagnostico della normalità.

In sintesi, si raccomanda generalmente di non fare affidamento sui test di normalità ma piuttosto su grafici diagnostici dei residui. Senza quelle trame o i valori reali nella tua domanda, è molto difficile per chiunque darti solidi consigli su ciò di cui i tuoi dati hanno bisogno in termini di analisi o trasformazione. Per ottenere il miglior aiuto, fornire i dati non elaborati.


Ciao a tutti per i suggerimenti. Ho finito per guardare i miei residui come suggerito e usando la sintassi sopra con le mie variabili. I miei dati non erano terribilmente non normali come avevo pensato, quindi ho usato le mie regressioni lineari parametriche con molta più sicurezza e una coscienza chiara! Grazie ancora.
Rachel S,

4

In primo luogo, la regressione OLS non fa ipotesi sui dati, fa ipotesi sugli errori, come stimato dai residui.

In secondo luogo, la trasformazione dei dati per adeguare un modello è, a mio avviso, l'approccio sbagliato. Vuoi che il tuo modello si adatti al tuo problema, non viceversa. Ai vecchi tempi, la regressione OLS era "l'unico gioco in città" a causa dei computer lenti, ma non è più vero.

Terzo, non uso SPSS, quindi non posso fare a meno, ma sarei stupito se non offrisse alcune forme di regressione non lineare. Alcune possibilità sono la regressione quantile, gli alberi di regressione e la regressione robusta.

In quarto luogo, sono un po 'preoccupato per la tua affermazione:

Voglio davvero / ho bisogno di eseguire un'analisi di regressione per vedere quali elementi del questionario prevedono la risposta a un elemento complessivo (soddisfazione)

Se gli articoli sono stati sommati o combinati in qualche modo per ottenere la scala complessiva, la regressione non è affatto l'approccio giusto. Probabilmente vuoi un'analisi fattoriale.


hai suggerito che potrebbe desiderare l'analisi dei fattori, ma l'analisi dei fattori non è interessata anche se i dati non sono normalmente distribuiti?
ottimizzare il

È possibile eseguire analisi fattoriali su dati che non sono nemmeno continui. Ma questa è una discussione separata - ed è stata discussa qui.
Peter Flom - Ripristina Monica

1
Ciao Peter, apprezzo la tua esperienza e apprezzo molto il tuo consiglio. Grazie per il tempo dedicato a rispondere. Giusto per chiarire, so che si può fare AF su articoli non normalmente distribuiti (così come la discussione sulla normalità dei residui). Ero solo curioso di imparare (da qualcuno con la tua esperienza) se l'OP non sarebbe entrato nello stesso dilemma. Ma suppongo che tu abbia già risposto :)
ottimizza l'

1

In generale, ci sono due possibili approcci al tuo problema: uno che è ben giustificato da una prospettiva teorica, ma potenzialmente impossibile da attuare nella pratica, mentre l'altro è più euristico.

L'approccio teoricamente ottimale (che probabilmente non sarà effettivamente in grado di utilizzare, sfortunatamente) è quello di calcolare una regressione tornando all'applicazione diretta del cosiddetto metodo di massima probabilità. La connessione tra la stima della massima verosimiglianza (che è in realtà il concetto matematico antecedente e più fondamentale) e la regressione dei minimi quadrati ordinari (l'approccio usuale, valido per il caso specifico ma estremamente comune in cui le variabili di osservazione sono tutte casualmente indipendenti e normalmente distribuite ) è descritta in molti libri di testo sulle statistiche; una discussione che mi piace particolarmente è la sezione 7.1 di "Analisi dei dati statistici" di Glen Cowan. Nei casi in cui le variabili di osservazione non sono normalmente distribuite,

In questo caso, poiché sembra che tu non conosca effettivamente la distribuzione sottostante che governa le tue variabili di osservazione (vale a dire, l'unica cosa certa è che non è sicuramente gaussiana, ma non quello che è in realtà), l'approccio sopra vince ' lavoro per te. Di solito, quando OLS fallisce o restituisce un risultato folle, è a causa di troppi punti anomali. I punti anomali, che sono ciò che in realtà interrompono l'assunzione di variabili di osservazione normalmente distribuite, contribuiscono in modo eccessivo all'adattamento, poiché i punti in OLS sono ponderati dai quadrati della loro deviazione dalla curva di regressione e, per gli outlier, da tale deviazione è grande. Il consueto approccio euristico in questo caso è quello di sviluppare alcune modifiche o modifiche all'OLS che si traducono in una riduzione del peso dei punti anomali o declassati rispetto al metodo OLS di base. Collettivamente, questi sono generalmente noti comeregressione robusta . Un elenco contenente alcuni esempi di specifiche tecniche di stima robuste che potresti voler provare può essere trovato qui .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.