Accedo trasformato la mia variabile dipendente, posso usare la distribuzione normale GLM con la funzione LOG link?

Ho una domanda riguardante i modelli lineari generalizzati (GLM). La mia variabile dipendente (DV) è continua e non normale. Quindi registro lo trasformato (ancora non normale ma migliorato).

Voglio mettere in relazione il DV con due variabili categoriche e una continua covariabile. Per questo voglio condurre un GLM (sto usando SPSS) ma non sono sicuro di come decidere la distribuzione e la funzione da scegliere.

Ho condotto il test non parametrico di Levene e ho omogeneità di varianze, quindi sono propenso a utilizzare la distribuzione normale. Ho letto che per la regressione lineare i dati non devono essere normali, i residui lo fanno. Quindi, ho stampato i residui Pearson standardizzati e i valori previsti per il predittore lineare da ciascun GLM individualmente (funzione di identità normale GLM e funzione di registro normale). Ho condotto test di normalità (istogramma e Shapiro-Wilk) e tracciato i residui rispetto ai valori previsti (per verificare la casualità e la varianza) per entrambi individualmente. I residui della funzione identità non sono normali ma i residui della funzione registro sono normali. Sono propenso a scegliere normale con la funzione log link perché i residui di Pearson sono normalmente distribuiti.

Quindi le mie domande sono:

Posso usare la normale distribuzione GLM con la funzione LOG link su un DV che è già stato trasformato in log?
Il test di omogeneità della varianza è sufficiente per giustificare l'utilizzo della distribuzione normale?
La procedura di controllo residuo è corretta per giustificare la scelta del modello della funzione di collegamento?

Immagine della distribuzione DV a sinistra e residui della normale GLM con funzione log link a destra.

Distribuzione DV a sinistra e residui della normale GLM a destra

— Scienziato
fonte

Non è ben chiaro cosa si intende per questo: " Così, ho confrontato i residui di Pearson da GLM con normale funzione identità e la funzione di log normale. "

— Glen_b -Reinstate Monica

Grazie per il tuo commento. Volevo dire che ho stampato i residui e i valori previsti da ogni GLM (identità e registro) singolarmente e verificato la normalità e tracciato i residui Pearson standardizzati rispetto ai valori previsti per ciascun modello individualmente. Per la funzione identità, i residui non sono normali, mentre per la funzione registro, i residui sono normali.

— Scienziato,

In che modo un diagramma di residui Pearson standardizzati rispetto ai valori previsti indica se i dati sono effettivamente normali?

— Glen_b -Restate Monica

Ho verificato la normalità tracciando l'istogramma dei residui e conducendo Shapiro-Wilk (P> 0,05 per la funzione log). Quindi ho tracciato i residui rispetto ai valori previsti per vedere se fossero distribuiti casualmente e per verificare la varianza. (scusate se non dico informazioni importanti, è la prima volta che invio messaggi)

— Scienziato,

Immagino che "funzione identità" sia un omofono qui per "funzione densità".

— Nick Cox,

Posso usare la normale distribuzione GLM con la funzione LOG link su un DV che è già stato trasformato in log?

Sì; se le ipotesi sono soddisfatte su tale scala

Il test di omogeneità della varianza è sufficiente per giustificare l'utilizzo della distribuzione normale?

Perché l'uguaglianza di varianza implicherebbe la normalità?

La procedura di controllo residuo è corretta per giustificare la scelta del modello della funzione di collegamento?

Dovresti stare attento all'utilizzo di entrambi gli istogrammi e la bontà dei test di idoneità per verificare l'idoneità dei tuoi presupposti:

1) Attenzione usando l'istogramma per valutare la normalità. (Vedi anche qui )

In breve, a seconda di qualcosa di semplice come una piccola modifica nella scelta della larghezza di bin, o anche solo della posizione del limite del cestino, è possibile ottenere impressioni piuttosto diverse sulla forma dei dati:

Due istogrammi di residui

Sono due istogrammi dello stesso set di dati. L'uso di diverse binwidth può essere utile per vedere se l'impressione è sensibile a ciò.

2) Fai attenzione usando i test di bontà di adattamento per concludere che il presupposto della normalità è ragionevole. I test formali di ipotesi non rispondono davvero alla domanda giusta.

ad es. vedere i collegamenti al punto 2. qui

Riguardo alla varianza, che è stata menzionata in alcuni articoli usando insiemi di dati simili "poiché le distribuzioni avevano varianze omogenee, è stato utilizzato un GLM con una distribuzione gaussiana". Se ciò non è corretto, come posso giustificare o decidere la distribuzione?

In circostanze normali, la domanda non è "i miei errori (o le distribuzioni condizionate) sono normali?" - non lo saranno, non abbiamo nemmeno bisogno di controllare. Una domanda più pertinente è "quanto il grado di non normalità presente influisce sulle mie inferenze?"

Suggerisco una stima della densità del kernel o un QQplot normale (grafico dei residui rispetto ai punteggi normali). Se la distribuzione sembra abbastanza normale, hai poco di cui preoccuparti. Infatti, anche quando è chiaramente non-normale che ancora potrebbe non importa molto, a seconda di cosa si vuole fare (intervalli normale di previsione in realtà si baserà sulla normalità, per esempio, ma molte altre cose tenderanno a lavoro a campioni di grandi dimensioni )

Stranamente, a grandi campioni, la normalità diventa generalmente sempre meno cruciale (a parte i PI come menzionato sopra), ma la tua capacità di respingere la normalità diventa sempre più grande.

Modifica: il punto sull'uguaglianza della varianza è che può davvero influire sulle tue inferenze, anche a grandi dimensioni di campione. Ma probabilmente non dovresti valutarlo nemmeno con test di ipotesi. Sbagliare l'assunto di varianza è un problema qualunque sia la tua distribuzione presunta.

Ho letto che la devianza in scala dovrebbe essere intorno a Np per il modello per una buona misura, giusto?

Quando si adatta un modello normale, ha un parametro di scala, nel qual caso la deviazione ridotta sarà di circa Np anche se la distribuzione non è normale.

a tuo avviso, la normale distribuzione con collegamento log è una buona scelta

Nella continua assenza di sapere cosa stai misurando o per cosa stai usando l'inferenza, non riesco ancora a giudicare se suggerire un'altra distribuzione per il GLM, né quanto sia importante la normalità per le tue inferenze.

Tuttavia, se anche le altre tue ipotesi sono ragionevoli (la linearità e l'uguaglianza di varianza dovrebbero almeno essere verificate e le potenziali fonti di dipendenza considerate), nella maggior parte dei casi mi sentirei molto a mio agio nel fare cose come usare gli EC e fare test su coefficienti o contrasti - c'è solo una leggerissima impressione di asimmetria in quei residui, che, anche se è un effetto reale, non dovrebbe avere un impatto sostanziale su quel tipo di inferenza.

In breve, dovresti stare bene.

(Mentre un'altra funzione di distribuzione e collegamento potrebbe fare un po 'meglio in termini di adattamento, solo in circostanze limitate potrebbero avere anche più senso.)

— Glen_b -Restate Monica
fonte

Grazie ancora! Riguardo alla varianza, che è stata menzionata in alcuni articoli usando insiemi di dati simili "poiché le distribuzioni avevano varianze omogenee, è stato utilizzato un GLM con una distribuzione gaussiana". Se ciò non è corretto, come posso giustificare o decidere la distribuzione? Per quanto riguarda la distribuzione normale residua, significa che è più appropriato giusto? Ho letto che la devianza in scala dovrebbe essere intorno a Np per il modello per una buona misura, giusto? Il valore è lo stesso per entrambi i GLM e intorno a Np. Ho anche identificato il modello più adatto nel modello usando i criteri AIC. Non sono sicuro se questo è ciò che intendevi.

— Scienziato,

vedere la discussione nelle mie modifiche sopra

— Glen_b -Restate Monica

Grazie @Glen_b per la bella spiegazione. L'istogramma che ho anche testato usando Shapiro-Wilk, non prenderà in considerazione tutto? Ho tracciato il QQ, i valori residui previsti normali e osservati di Pearson e i punti + - si adattano alla linea, tranne che nelle punte in cui vanno leggermente verso l'alto. È questo che intendevi? La distribuzione dei residui sembra normale, quindi posso procedere? (anche se il DV registrato non è normale) (sto ancora leggendo i link ma volevo chiederlo)

— Scienziato

" perché la trama QQ normale era normalmente distribuita per questo modello? " ... Potrei dire "la trama QQ dei residui suggerisce che l'assunzione della normalità è ragionevole" o "i residui appaiono ragionevolmente vicini alla normalità". Se il tuo pubblico si aspetta test di ipotesi, potresti comunque citarne uno (ma ciò non altera il fatto che non siano particolarmente utili). " Il problema con il set di dati è che nell'istogramma del DV " ... non si ipotizza la distribuzione del DV incondizionato o di alcuno dei IV.

— Glen_b -Restate Monica

Vedi la discussione aggiuntiva in fondo alla mia risposta. Scusa se non ho risposto prima, ma stavo dormendo. Sull'altra domanda, il motivo per cui ho posto la domanda è che i due modelli condividono la maggior parte dei loro presupposti, e così praticamente tutta questa discussione è rilevante per quella domanda, anche se il DV è diverso. Non è esattamente la stessa situazione (e quindi dovrebbe essere una nuova domanda), ma questa domanda dovrebbe essere collegata da essa, quindi puoi porre domande nel contesto di questa discussione, ad esempio se ci sono problemi diversi o aggiuntivi.

— Glen_b -Restate Monica