C'è qualche motivo di ciò a cui riesco a pensare, per trasformare i dati con una radice quadrata? Voglio dire che osservo sempre che R ^ 2 aumenta. Ma questo è probabilmente solo per aver centrato i dati! Ogni pensiero è apprezzato!
C'è qualche motivo di ciò a cui riesco a pensare, per trasformare i dati con una radice quadrata? Voglio dire che osservo sempre che R ^ 2 aumenta. Ma questo è probabilmente solo per aver centrato i dati! Ogni pensiero è apprezzato!
Risposte:
In generale, la regressione parametrica / GLM presuppone che la relazione tra la variabile e ciascuna X variabile sia lineare, che i residui una volta inserito il modello seguano una distribuzione normale e che le dimensioni dei residui rimangano pressoché uguali fino in fondo lungo le linee adattate. Quando i tuoi dati non sono conformi a questi presupposti, le trasformazioni possono aiutare.
Dovrebbe essere intuitivo che se è proporzionale a X 2 , Y di radice quadrata linearizza questa relazione, portando a un modello che si adatta meglio alle ipotesi e che spiega più varianza (ha R 2 più alto ). Il rooting quadrato Y aiuta anche quando hai il problema che la dimensione dei tuoi residui aumenta progressivamente man mano che i tuoi valori di Xaumenta (ovvero la dispersione dei punti dati attorno alla linea adattata diventa più marcata mentre ci si sposta lungo di essa). Pensa alla forma di una funzione di radice quadrata: inizialmente aumenta rapidamente ma poi satura. Quindi l'applicazione di una trasformazione a radice quadrata gonfia numeri più piccoli ma stabilizza quelli più grandi. Quindi puoi immaginarlo come allontanare piccoli residui a valori bassi dalla linea montata e schiacciare i residui grandi a X elevato valori alti verso la linea. (Questa è una stenografia mentale non una matematica corretta!)
Come dicono Dmitrij e ocram, questa è solo una possibile trasformazione che aiuterà in determinate circostanze, e strumenti come la formula Box-Cox possono aiutarti a scegliere quella più utile. Consiglierei di prendere l'abitudine di guardare sempre un diagramma dei residui rispetto ai valori adattati (e anche un normale diagramma delle probabilità o un istogramma dei residui) quando si adatta un modello. Scoprirai che spesso finirai per vedere da questi che tipo di trasformazione aiuterà.
Tuttavia, questo valore a priori fisso potrebbe essere (e probabilmente non lo è) non ottimale. In R puoi prendere in considerazione una funzione della car
libreria powerTransform
che aiuta a stimare un valore ottimale per le trasformazioni di Box-Cox per ciascuna delle variabili partecipanti alla regressione lineare o per qualsiasi dato con cui lavori (vedi la example(powerTransform)
per ulteriori dettagli).
Quando la variabile segue una distribuzione di Poisson, i risultati della trasformazione della radice quadrata saranno molto più vicini al gaussiano.
La matrice di distanza calcolata con Bray-Curtis di solito non è metrica per alcuni dati, dando origine a autovalori negativi. Una delle soluzioni per superare questo problema è trasformarlo (logaritmico, radice quadrata o radice quadrata doppia).