Perché non trasformare in log tutte le variabili che non sono di maggiore interesse?


10

Libri e discussioni spesso affermano che quando si affrontano problemi (di cui ce ne sono alcuni) con un predittore, la trasformazione del log è una possibilità. Ora, capisco che questo dipende dalle distribuzioni e la normalità nei predittori non è un'ipotesi di regressione; ma la trasformazione dei registri rende i dati più uniformi, meno influenzati dagli outlier e così via.

Ho pensato al log che trasforma tutte le mie variabili continue che non sono di interesse principale, ovvero le variabili per le quali mi adeguo solo.

È sbagliato? Buona? Inutili?

Risposte:


24

Ora capisco che questo dipende dalle distribuzioni e dalla normalità nei predittori

la trasformazione del registro rende i dati più uniformi

Come affermazione generale, questo è falso --- ma anche se fosse così, perché l' uniformità sarebbe importante?

Considera, ad esempio,

i) un predittore binario che prende solo i valori 1 e 2. Prendere i registri lo lascerebbe come un predittore binario che prende solo i valori 0 e registro 2. Non ha alcun effetto se non l'intercettazione e il ridimensionamento dei termini che coinvolgono questo predittore. Anche il valore p del predittore rimarrebbe invariato, così come i valori adattati.

inserisci qui la descrizione dell'immagine

ii) considerare un predittore di inclinazione a sinistra. Ora prendi i registri. In genere diventa più inclinato a sinistra.

inserisci qui la descrizione dell'immagine

iii) i dati uniformi diventano inclinati a sinistra

inserisci qui la descrizione dell'immagine

(spesso non è sempre un cambiamento così estremo)

meno influenzato dagli outlier

Come affermazione generale, questo è falso. Considera valori anomali bassi in un predittore.

inserisci qui la descrizione dell'immagine

Ho pensato di registrare trasformando tutte le mie variabili continue che non sono di grande interesse

A che fine? Se in origine le relazioni fossero lineari, non lo sarebbero più.

inserisci qui la descrizione dell'immagine

E se fossero già curvi, farlo automaticamente potrebbe peggiorarli (più curvi), non meglio.

-

Prendere i registri di un predittore (di interesse primario o meno) a volte potrebbe essere adatto, ma non è sempre così.


2
Mille grazie per questa splendida risposta. Penso che molti di noi, almeno io, avessero bisogno di vederlo visualizzato in questo modo. Ma sei anche d'accordo sul fatto che i dati distorti a destra dovrebbero essere soggetti alla trasformazione dei registri? Più di altri disallineamenti e forme?
Adam Robinsson,

1
Non generalmente, no. In alcune condizioni molto specifiche, forse.
Glen_b

Sono anche sorpreso di vedere che nessuno ha menzionato l'interpretazione del modello. Se registri trasformi la tua variabile dipendente, diventa un po 'più difficile interpretare il modello, specialmente per i laici o quelli senza background statistico / matematico. Ad esempio, supponiamo che tu abbia un modello che prevede l'altezza di un albero in piedi, data la circonferenza del tronco in pollici. L'interpretazione del essendo, per un aumento di un pollice nella circonferenza, l'altezza media dell'albero è aumentata dal tronco di mezzo piede è più ingombrante (continua)β^=0.50
StatsStudent

(non) che essere in grado di dire, ad esempio, per un aumento di un pollice del numero della circonferenza della circonferenza del tronco, l'altezza media dell'albero è aumentata di mezzo piede. Il successivo è più facile da interpretare e più facile da calcolare sul campo senza una calcolatrice.
StatStudent

10

A mio avviso, non ha senso eseguire la trasformazione dei registri (e qualsiasi trasformazione dei dati , per quella materia) solo per il gusto di farlo. Come indicato nelle risposte precedenti, a seconda dei dati, alcune trasformazioni sarebbero o non valide o inutili . Consiglio vivamente di leggere il seguente eccellente materiale introduttivo di IMHO sulla trasformazione dei dati : http://fmwww.bc.edu/repec/bocode/t/transint.html . Si noti che gli esempi di codice in questo documento sono scritti in linguaggio Stata , ma per il resto il documento è abbastanza generico e, quindi, utile anche per utenti non Stata.

Alcune semplici tecniche e strumenti per affrontare problemi comuni relativi ai dati , come la mancanza di normalità , valori anomali e distribuzioni di miscele sono reperibili in questo articolo (si noti che la stratificazione come approccio alla gestione della distribuzione di miscele è molto probabilmente la più semplice - un approccio più generale e complesso a questo è l' analisi delle miscele , noto anche come modelli di miscele finite , la cui descrizione va oltre lo scopo di questa risposta). Trasformazione Box-Cox, brevemente menzionato nei due riferimenti precedenti, è una trasformazione dei dati piuttosto importante, specialmente per i dati non normali (con alcuni avvertimenti). Per maggiori dettagli sulla trasformazione di Box-Cox, consultare questo articolo introduttivo .


2
Grandi riferimenti Aleksandr. Grazie per aver condiviso quel necessario scetticismo. Grazie.
Adam Robinsson,

1
@AdamRobinsson: Piacere mio, Adam! Sono contento che ti sia piaciuta la mia risposta.
Aleksandr Blekh,

8

La trasformazione del registro non migliora SEMPRE le cose. Ovviamente, non è possibile trasformare in log le variabili che raggiungono valori zero o negativi, e anche quelle positive che abbracciano zero potrebbero venire fuori con valori anomali negativi se trasformati in log.

Non dovresti semplicemente registrare tutto di routine, ma è una buona pratica PENSARE di trasformare predittori positivi selezionati (opportunamente, spesso un registro ma forse qualcos'altro) prima di adattare un modello. Lo stesso vale per la variabile di risposta. Anche la conoscenza della materia è importante. Qualche teoria della fisica o della sociologia o qualsiasi altra cosa potrebbe naturalmente portare a certe trasformazioni. In generale, se vedi variabili che sono positivamente inclinate, è qui che un log (o forse una radice quadrata o un reciproco) potrebbe aiutare.

Alcuni testi di regressione sembrano suggerire che è necessario esaminare i grafici diagnostici prima di considerare eventuali trasformazioni, ma non sono d'accordo. Penso che sia meglio fare il miglior lavoro possibile per fare queste scelte prima di montare qualsiasi modello, in modo da avere il miglior punto di partenza possibile; quindi guarda la diagnostica per vedere se è necessario regolare da lì.


Tutti aggiungono che queste considerazioni si applicano sia a predittori importanti che non importanti.
Russ Lenth,

Grazie @rvl! Sono sempre confuso dalla discordanza tra quando e come scegliere le trasformazioni; i libri spesso affermano che, come hai scritto, è necessario controllare la forma di tutte le variabili prima di toccare la regressione. Grazie per aver fornito i tuoi approfondimenti.
Adam Robinsson,

@rvl, grazie per la tua risposta. Trasformeresti il snoqset di dati in questo thread di CrossValidated (tenendo presente che l'obiettivo è quello di adattare un mix di gaussiani)?
Zhubarb,

-3

1) contare i dati (y> 0) -> log (y) oppure y = exp (b0 + biXi) 2) contare i dati + zero (y> = 0) -> modello di ostacolo (binomiale + conteggio reg.) 3) tutti gli effetti (e gli errori) moltiplicativi saranno additivi 4) varianza ~ media -> log (y) oppure y = exp (b0 + biXi) 5) ...


Questa risposta è difficile da leggere ed è poco chiaro se si tenta di rispondere alla domanda.
Juho Kokkala,

1
La presentazione telegrafica e non formattata rende questa risposta incomprensibile. Pensi di poter espandere le tue idee in inglese e utilizzare per le formule? TEX
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.