Posso usare la normale distribuzione GLM con la funzione LOG link su un DV che è già stato trasformato in log?
Sì; se le ipotesi sono soddisfatte su tale scala
Il test di omogeneità della varianza è sufficiente per giustificare l'utilizzo della distribuzione normale?
Perché l'uguaglianza di varianza implicherebbe la normalità?
La procedura di controllo residuo è corretta per giustificare la scelta del modello della funzione di collegamento?
Dovresti stare attento all'utilizzo di entrambi gli istogrammi e la bontà dei test di idoneità per verificare l'idoneità dei tuoi presupposti:
1) Attenzione usando l'istogramma per valutare la normalità. (Vedi anche qui )
In breve, a seconda di qualcosa di semplice come una piccola modifica nella scelta della larghezza di bin, o anche solo della posizione del limite del cestino, è possibile ottenere impressioni piuttosto diverse sulla forma dei dati:
Sono due istogrammi dello stesso set di dati. L'uso di diverse binwidth può essere utile per vedere se l'impressione è sensibile a ciò.
2) Fai attenzione usando i test di bontà di adattamento per concludere che il presupposto della normalità è ragionevole. I test formali di ipotesi non rispondono davvero alla domanda giusta.
ad es. vedere i collegamenti al punto 2. qui
Riguardo alla varianza, che è stata menzionata in alcuni articoli usando insiemi di dati simili "poiché le distribuzioni avevano varianze omogenee, è stato utilizzato un GLM con una distribuzione gaussiana". Se ciò non è corretto, come posso giustificare o decidere la distribuzione?
In circostanze normali, la domanda non è "i miei errori (o le distribuzioni condizionate) sono normali?" - non lo saranno, non abbiamo nemmeno bisogno di controllare. Una domanda più pertinente è "quanto il grado di non normalità presente influisce sulle mie inferenze?"
Suggerisco una stima della densità del kernel o un QQplot normale (grafico dei residui rispetto ai punteggi normali). Se la distribuzione sembra abbastanza normale, hai poco di cui preoccuparti. Infatti, anche quando è chiaramente non-normale che ancora potrebbe non importa molto, a seconda di cosa si vuole fare (intervalli normale di previsione in realtà si baserà sulla normalità, per esempio, ma molte altre cose tenderanno a lavoro a campioni di grandi dimensioni )
Stranamente, a grandi campioni, la normalità diventa generalmente sempre meno cruciale (a parte i PI come menzionato sopra), ma la tua capacità di respingere la normalità diventa sempre più grande.
Modifica: il punto sull'uguaglianza della varianza è che può davvero influire sulle tue inferenze, anche a grandi dimensioni di campione. Ma probabilmente non dovresti valutarlo nemmeno con test di ipotesi. Sbagliare l'assunto di varianza è un problema qualunque sia la tua distribuzione presunta.
Ho letto che la devianza in scala dovrebbe essere intorno a Np per il modello per una buona misura, giusto?
Quando si adatta un modello normale, ha un parametro di scala, nel qual caso la deviazione ridotta sarà di circa Np anche se la distribuzione non è normale.
a tuo avviso, la normale distribuzione con collegamento log è una buona scelta
Nella continua assenza di sapere cosa stai misurando o per cosa stai usando l'inferenza, non riesco ancora a giudicare se suggerire un'altra distribuzione per il GLM, né quanto sia importante la normalità per le tue inferenze.
Tuttavia, se anche le altre tue ipotesi sono ragionevoli (la linearità e l'uguaglianza di varianza dovrebbero almeno essere verificate e le potenziali fonti di dipendenza considerate), nella maggior parte dei casi mi sentirei molto a mio agio nel fare cose come usare gli EC e fare test su coefficienti o contrasti - c'è solo una leggerissima impressione di asimmetria in quei residui, che, anche se è un effetto reale, non dovrebbe avere un impatto sostanziale su quel tipo di inferenza.
In breve, dovresti stare bene.
(Mentre un'altra funzione di distribuzione e collegamento potrebbe fare un po 'meglio in termini di adattamento, solo in circostanze limitate potrebbero avere anche più senso.)