Quale potrebbe essere la ragione per usare la trasformazione della radice quadrata sui dati?


15

C'è qualche motivo di ciò a cui riesco a pensare, per trasformare i dati con una radice quadrata? Voglio dire che osservo sempre che R ^ 2 aumenta. Ma questo è probabilmente solo per aver centrato i dati! Ogni pensiero è apprezzato!


Ho risposto a questa domanda e alla domanda più generale qui stats.stackexchange.com/questions/18844/…
IrishStat

3
Se la variabile dipendente è diversa, i quadratini R non possono essere confrontati.

Risposte:


13

In generale, la regressione parametrica / GLM presuppone che la relazione tra la variabile e ciascuna XYX variabile sia lineare, che i residui una volta inserito il modello seguano una distribuzione normale e che le dimensioni dei residui rimangano pressoché uguali fino in fondo lungo le linee adattate. Quando i tuoi dati non sono conformi a questi presupposti, le trasformazioni possono aiutare.

Dovrebbe essere intuitivo che se è proporzionale a X 2 , Y di radice quadrata linearizza questa relazione, portando a un modello che si adatta meglio alle ipotesi e che spiega più varianza (ha R 2 più alto ). Il rooting quadrato Y aiuta anche quando hai il problema che la dimensione dei tuoi residui aumenta progressivamente man mano che i tuoi valori di XYX2YR2YXaumenta (ovvero la dispersione dei punti dati attorno alla linea adattata diventa più marcata mentre ci si sposta lungo di essa). Pensa alla forma di una funzione di radice quadrata: inizialmente aumenta rapidamente ma poi satura. Quindi l'applicazione di una trasformazione a radice quadrata gonfia numeri più piccoli ma stabilizza quelli più grandi. Quindi puoi immaginarlo come allontanare piccoli residui a valori bassi dalla linea montata e schiacciare i residui grandi a X elevatoXX valori alti verso la linea. (Questa è una stenografia mentale non una matematica corretta!)

Come dicono Dmitrij e ocram, questa è solo una possibile trasformazione che aiuterà in determinate circostanze, e strumenti come la formula Box-Cox possono aiutarti a scegliere quella più utile. Consiglierei di prendere l'abitudine di guardare sempre un diagramma dei residui rispetto ai valori adattati (e anche un normale diagramma delle probabilità o un istogramma dei residui) quando si adatta un modello. Scoprirai che spesso finirai per vedere da questi che tipo di trasformazione aiuterà.


Ehi, grazie! Conosco la funzione boxcox, ma mi chiedevo per quali motivi pratici la trasformazione sqrt abbia senso! Grazie!
MarkDollar,

1
se la varianza degli errori è linearmente correlata al livello della serie si prende una trasformazione logaritmica. Se la deviazione standard è linearmente correlata al livello della serie, si ottiene una trasformazione con radice quadrata. La selezione non ha nulla a che fare con la dimensione dei residui in quanto si riferisce al livello di y e tutto a che fare con l'accoppiamento / disaccoppiamento del primo e del secondo momento.
IrishStat,

1
Freya, +1 per stenografia mentale >> matematica corretta. Questa intuizione è anche una ragione per usare L.5-metrics-for-clustering ?
denis,

Ciao Denis, temo di non sapere nulla del clustering.
Freya Harrison,

10

λ=0.5

yN(Xβ,σ2In)

Tuttavia, questo valore a priori fisso potrebbe essere (e probabilmente non lo è) non ottimale. In R puoi prendere in considerazione una funzione della carlibreria powerTransformche aiuta a stimare un valore ottimale per le trasformazioni di Box-Cox per ciascuna delle variabili partecipanti alla regressione lineare o per qualsiasi dato con cui lavori (vedi la example(powerTransform)per ulteriori dettagli).


5

Quando la variabile segue una distribuzione di Poisson, i risultati della trasformazione della radice quadrata saranno molto più vicini al gaussiano.


Potresti fornire alcuni argomenti per questa affermazione?
utdiscante

In realtà non aiuta molto per la distribuzione individuale con un valore specifico del parametro, ma rende la famiglia di distribuzione ottenuta quando il parametro varia, più vicino a una famiglia normale con varianza costante
kjetil b halvorsen


3

Talvolta si consiglia di prendere la radice quadrata per far apparire una variabile non normale come una variabile normale nei problemi di regressione. Il logaritmo è un'altra possibile trasformazione comune.


0

La matrice di distanza calcolata con Bray-Curtis di solito non è metrica per alcuni dati, dando origine a autovalori negativi. Una delle soluzioni per superare questo problema è trasformarlo (logaritmico, radice quadrata o radice quadrata doppia).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.