Modello lineare con risposta trasformata in log vs. modello lineare generalizzato con log link


46

In questo documento intitolato "SCEGLIERE TRA MODELLI LINEARI GENERALIZZATI APPLICATI AI DATI MEDICI" gli autori scrivono:

In un modello lineare generalizzato, la media viene trasformata dalla funzione di collegamento, invece di trasformare la risposta stessa. I due metodi di trasformazione possono portare a risultati abbastanza diversi; ad esempio, la media delle risposte trasformate in log non è la stessa del logaritmo della risposta media . In generale, il primo non può essere facilmente trasformato in una risposta media. Pertanto, la trasformazione della media consente spesso di interpretare più facilmente i risultati, soprattutto in quanto i parametri rimangono sulla stessa scala delle risposte misurate.

Sembra che suggeriscano il montaggio di un modello lineare generalizzato (GLM) con log link invece di un modello lineare (LM) con risposta trasformata in log. Non afferro i vantaggi di questo approccio e mi sembra abbastanza insolito.

La mia variabile di risposta appare normalmente distribuita. Ottengo risultati simili in termini di coefficienti e loro errori standard con entrambi gli approcci.

Mi chiedo ancora: se una variabile ha una distribuzione log-normale, non è la media della variabile trasformata in log preferibile al log della variabile media non trasformata , poiché la media è il riepilogo naturale di una distribuzione normale e il log -La variabile trasformata viene normalmente distribuita, mentre la variabile stessa non lo è?


3
Sono d'accordo con il tuo indizio se abbiamo una variabile distribuita normale al registro. Tuttavia, la media deve essere "trasformata indietro" per ottenere una statistica facilmente comprensibile basata sulla scala originale dei dati. Questo potrebbe spiegare la conclusione dell'articolo. Inoltre, dopo la trasformazione del log, potremmo non ottenere una variabile normalmente distribuita e in questo caso, non so quale approccio sarebbe meglio.
soufanom,

Risposte:


46

Sebbene possa sembrare che sia preferibile la media delle variabili trasformate in log (poiché in questo modo il log-normal è tipicamente parametrizzato), da un punto di vista pratico, il log della media è in genere molto più utile.

Ciò è particolarmente vero quando il tuo modello non è esattamente corretto, e per citare George Box: "Tutti i modelli sono sbagliati, alcuni sono utili"

Supponiamo che una certa quantità sia normalmente distribuita, dice la pressione sanguigna (non sono un medico!) E abbiamo due popolazioni, uomini e donne. Si potrebbe ipotizzare che la pressione sanguigna media sia più alta nelle donne che negli uomini. Ciò corrisponde esattamente alla domanda se il registro della pressione sanguigna media è più alto nelle donne che negli uomini. Non equivale a chiedere se la media della pressione arteriosa è più alta nelle donne che nell'uomo .

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Ovviamente, farlo rende orribilmente complicata l'algebra, ma funziona ancora e significa la stessa cosa.

ln(μ)σln2μln

μln

Finora, abbiamo ipotizzato che la pressione arteriosa sia davvero normale. Se le vere distribuzioni non sono del tutto normali, la trasformazione dei dati (in genere) renderà le cose persino peggiori di quelle precedenti, poiché non sapremo esattamente cosa significhi effettivamente il nostro parametro "mean". Cioè non sapremo che quelle due equazioni per media e varianza che ho dato sopra sono corrette. L'uso di quelli per trasformare avanti e indietro introdurrà quindi ulteriori errori.


Ho trovato questo molto utile: christoph-scherber.de/content/PDF%20Files/…
Aditya

2
Corone, ho evidenziato due frasi importanti nella tua risposta. Spero non ti dispiaccia. Si prega di tornare indietro se non si è d'accordo.
Stefan,

17

Ecco i miei due centesimi da un corso avanzato di analisi dei dati che ho seguito mentre studiavo biostatistica (anche se non ho riferimenti diversi dalle note del mio professore):

Si riduce a stabilire se è necessario o meno affrontare la linearità e l'eteroscedasticità (varianze disuguali) nei dati o solo la linearità.

Rileva che la trasformazione dei dati influisce sia sulle ipotesi di linearità che sulla varianza di un modello. Ad esempio, se i tuoi residui presentano problemi con entrambi, potresti prendere in considerazione la trasformazione dei dati, che potenzialmente potrebbero risolvere entrambi. La trasformazione trasforma gli errori e quindi la loro varianza.

Al contrario, l'uso della funzione link influisce solo sul presupposto della linearità, non sulla varianza. Il log viene preso della media (valore atteso) e quindi la varianza dei residui non viene influenzata.

In sintesi, se non si ha un problema con la varianza non costante, suggerisce di utilizzare la funzione di collegamento sulla trasformazione, poiché in questo caso non si desidera modificare la varianza (si sta già verificando il presupposto).


6
Mentre la funzione di collegamento influisce solo sulla media, la funzione di collegamento è solo una parte di un GLM. I tuoi commenti funzionano per un gluss gaussiano con link di registro. Una gamma GLM con log link avrà la stessa ipotesi della funzione di varianza (varianza proporzionale al quadrato medio) del prendere i log e adattando una varianza costante su quella scala di log. Altre famiglie all'interno del framework GLM avranno altre funzioni di varianza. Sfortunatamente la tabella nella pagina di Wikipedia per GLM omette le funzioni di varianza per le famiglie di distribuzione che fornisce.
Glen_b,

2
Citano alcuni esempi qui però. Ecco la gamma
Glen_b,

-1

Se la risposta vera non è simmetrica (non distribuita come di consueto) ma la risposta trasformata in log è normale, si deve usare la regressione lineare sulla risposta trasformata e il coefficiente esponente ci dà la razione della media geometrica.

Se la risposta vera è simmetrica (distribuita come normale) ma la relazione tra esplicativa (X) e la risposta non è lineare ma il valore log atteso è la funzione lineare di X allora si deve usare GLM con log log e il coefficiente esponente ci dà il rapporto della media aritmetica


Questa risposta non è chiara Intendevi "variabile" anziché "vero"?
Michael Chernick,

Questo è un frammento di una risposta. Devi chiarire in che modo ciò si collega alla domanda e in che cosa si basa effettivamente la risposta alla domanda.
ReneBt
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.