Regressione: trasformazione delle variabili

Quando si trasformano le variabili, è necessario utilizzare tutta la stessa trasformazione? Ad esempio, posso scegliere e scegliere variabili trasformate diversamente, come in:

Sia età, la durata dell'impiego, la durata del soggiorno e il reddito. $x_1,x_2,x_3$

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Oppure, devi essere coerente con le tue trasformazioni e usare lo stesso? Come in:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3)

La mia comprensione è che l'obiettivo della trasformazione è quello di affrontare il problema della normalità. Osservando gli istogrammi di ogni variabile, possiamo vedere che presentano distribuzioni molto diverse, il che mi indurrebbe a pensare che le trasformazioni richieste siano diverse su una base per variabile.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7])

testo alternativo

$\log(x_n + 1)$ $x_n$ $0$ $0$

## R Code 
plot(df[1:7])

testo alternativo

r regression logistic data-transformation

— Brandon Bertelsen
fonte

Uno trasforma la variabile dipendente per ottenere simmetria approssimativa e omoscedasticità dei residui . Le trasformazioni delle variabili indipendenti hanno uno scopo diverso: dopo tutto, in questa regressione tutti i valori indipendenti sono considerati fissi, non casuali, quindi la "normalità" è inapplicabile. L'obiettivo principale di queste trasformazioni è quello di raggiungere relazioni lineari con la variabile dipendente (o, davvero, con il suo logit). (Questo obiettivo ha la precedenza su quelli ausiliari come la riduzione della leva finanziaria in eccessoo ottenere una semplice interpretazione dei coefficienti.) Queste relazioni sono una proprietà dei dati e dei fenomeni che li hanno prodotti, quindi è necessaria la flessibilità di scegliere re-espressioni appropriate di ciascuna delle variabili separatamente dalle altre. In particolare, non solo non è un problema usare un registro, una radice e un reciproco, è piuttosto comune. Il principio è che non c'è (di solito) niente di speciale nel modo in cui i dati sono espressi originariamente, quindi dovresti lasciare che i dati suggeriscano re-espressioni che portano a modelli efficaci, accurati, utili e (se possibile) teoricamente giustificati.

Gli istogrammi - che riflettono le distribuzioni univariate - spesso suggeriscono una trasformazione iniziale, ma non sono dispositivi. Accompagnali con matrici scatterplot in modo da poter esaminare le relazioni tra tutte le variabili.

$\log(x + c)$ $c$ $x$ $\log(x)$ $x$ $z_x$ $x$ $x = 0$ ed è 0 altrimenti. Questi termini contribuiscono con una somma

β \log (x) + β_{0} z_{x}

$\beta \log(x) + \beta_0 z_x$

$x \gt 0$ $z_x = 0$ $\beta \log(x)$ $x = 0$ $\log(x)$ $z_x = 1$ $\beta_0$ $\beta_0$ $x = 0$ $\beta$ $\log(x)$

— whuber
fonte

Descrizione molto utile, grazie per la direzione e i dettagli anche sulla mia domanda.

— Brandon Bertelsen,

pareonline.net/getvn.asp?v=15&n=12 Osborne (2002) raccomanda di ancorare il valore minimo in una distribuzione esattamente a 1.0. pareonline.net/getvn.asp?v=8&n=6

— Chris,

1

$1$

1

$1$

In uno dei miei set di dati su cui sto lavorando, ho notato che se ho spostato la variabile di risposta dipendente su anchor su 1 e ho usato una trasformazione box cox per eliminare l'inclinazione, la trasformazione risultante è stata indebolita portando credibilità alla tua critica. ;)

— Chris,

β_{0}

$\beta_0$

z_{x}

$z_x$