Trasformazione dei dati: tutte le variabili o solo quelle non normali?


14

In Andy Field's Discovering Statistics Using SPSS afferma che tutte le variabili devono essere trasformate.

Tuttavia nella pubblicazione: "Esaminando le relazioni spazialmente variabili tra uso del suolo e qualità dell'acqua usando la regressione geograficamente ponderata I: progettazione e valutazione del modello", si afferma specificamente che sono state trasformate solo le variabili non normali.

Questa analisi è specifica? Ad esempio, in un confronto di mezzi, confrontare i log con i dati grezzi produrrebbe ovviamente una differenza significativa, mentre quando si usa qualcosa come la regressione per investigare la relazione tra le variabili diventa meno importante.

Modifica: ecco la pagina di testo completo nella sezione "Trasformazione dei dati":

Ed ecco il link al documento: http://www.sciencedirect.com/science/article/pii/S0048969708009121


16
Sulla base della nuova immagine che hai pubblicato, l'autore sembra confondere "variabile" con "osservazione". Nella parte superiore di p. 154 sottolinea giustamente che quando si trasforma una variabile, è necessario trasformare tutti i suoi valori (osservazioni) allo stesso modo, poiché altrimenti diventa impossibile confrontare qualsiasi cosa. (Affermare che "non cambierà le relazioni tra le variabili" richiede un'interpretazione estremamente generosa per essere corretta.) Il fondo di p. 154 è così chiaramente sbagliato, frase per frase (anche nelle note a piè di pagina), che non vale nemmeno la pena di elencare tutti i problemi con esso.
whuber

Risposte:


17

Citi diversi consigli, ognuno dei quali è senza dubbio inteso utile, ma è difficile trovare molto merito in nessuno di essi.

In ogni caso, mi affido totalmente a ciò che citi come sintesi. A difesa degli autori, vorrei credere che aggiungano qualifiche appropriate nei dintorni o altro materiale. (Riferimenti bibliografici completi nel solito nome (i), data, titolo, (editore, luogo) o (titolo del diario, volume, pagine) migliorerebbero la domanda.)

Campo

Questo consiglio è utile, ma nella migliore delle ipotesi è notevolmente semplificato. Il consiglio di Field sembra essere inteso in generale; ad esempio, il riferimento al test di Levene implica un focus temporaneo sull'analisi della varianza.

(1,0)

Più in generale, è comune - in molti campi la solita situazione - che alcuni predittori debbano essere trasformati e il resto lasciato così com'è.

È vero che incontrare in un articolo o una tesi una miscela di trasformazioni applicate in modo diverso a diversi predittori (incluso un caso speciale, trasformazione dell'identità o lasciare così com'è) è spesso motivo di preoccupazione per un lettore. Il mix è un insieme ben ponderato di scelte o è stato arbitrario e capriccioso?

Inoltre, in una serie di studi la coerenza dell'approccio (applicare sempre i logaritmi a una risposta, o non farlo mai) aiuta enormemente a confrontare i risultati e l'approccio diverso lo rende più difficile.

Ma questo non vuol dire che non potrebbero mai esserci ragioni per un mix di trasformazioni.

Non vedo che la maggior parte della sezione che citi ha molto a che fare con i consigli chiave che metti in evidenza in giallo. Questo di per sé è motivo di preoccupazione: è una strana impresa annunciare una regola assoluta e non spiegarla davvero. Al contrario, l'ingiunzione "Ricorda" suggerisce che i motivi di Field sono stati forniti all'inizio del libro.

Carta anonima

Il contesto qui è modelli di regressione. Come spesso, parlare di OLS enfatizza in modo strano il metodo di stima piuttosto che il modello, ma possiamo capire cosa si intende. GWR Ho interpretato come regressione geograficamente ponderata.

L'argomento qui è che dovresti trasformare predittori non normali e lasciare gli altri così come sono. Ancora una volta, ciò solleva una domanda su cosa si può e si dovrebbe fare con le variabili indicatore, che non possono essere normalmente distribuite (a cui come sopra si può rispondere sottolineando che la non normalità in quel caso non è un problema). Ma l'ingiunzione ha a rovescio implicito che il problema è la non normalità dei predittori. Non così; non fa parte del modello di regressione assumere nulla riguardo alle distribuzioni marginali dei predittori.

Xβ

Ci sono così tanti consigli straordinariamente buoni sulle trasformazioni in questo forum che mi sono concentrato sulla discussione di ciò che citi.

PS Si aggiunge un'istruzione che inizia "Ad esempio, in un confronto di mezzi, confrontare i registri con i dati grezzi produrrebbe ovviamente una differenza significativa". Non sono chiaro ciò che hai in mente, ma confrontare i valori per un gruppo con i logaritmi dei valori per un altro gruppo sarebbe semplicemente privo di senso. Non capisco affatto il resto della tua affermazione.


Nick, volevo esprimere il mio punto in modo rapido e conciso, cosa che sento di aver fatto. Nel mondo di Google, ho fornito informazioni sufficienti per accedere facilmente ai documenti originali, qualora fossero richiesti. Grazie per aver risposto, anche se in un certo senso, mi hai fornito esattamente le informazioni che stavo cercando: dover trasformare tutte le variabili, come suggerito da Field, nella sua sezione Trasformazione dei dati è un approccio errato alla trasformazione dei dati.
I Heart Beats,

14
+1. Mi meraviglio di quanto tu sia riuscito a trattare con tatto materiale così totalmente sbagliato. Scremare le pagine qua e là nel libro SPSS fornisce informazioni su alcune delle domande davvero confuse che riceviamo su questo sito: penso che debbano provenire dai lettori di quel libro. È pieno di errori, disinformazione e totale confabulazione.
whuber

@I battiti del cuore Lieto che tu abbia trovato utile la risposta, ma la mia richiesta di referenziamento corretto è valida. Potresti anche dire che i riferimenti incompleti sono sempre difendibili perché le persone interessate possono sempre Google. Al contrario, la buona borsa di studio e la scienza sono aiutate da una buona pratica bibliografica, fornendo dettagli completi e non facendo (molti) lettori un lavoro inutile.
Nick Cox,

@Nick vedi le modifiche nella mia domanda. Credo che l'articolo sia open source e ho aggiunto una pagina intera del testo per il contesto.
I Heart Beats,

8
Grazie per migliorare i riferimenti. Hai citato di più da Field. È disponibile una sezione aggiuntiva che include l'affermazione che "la trasformazione dei dati non cambierà le relazioni tra le variabili". O quello ruota attorno a un significato idiosincratico di "relazione", o (più probabilmente, temo) è inutile, anzi del tutto sbagliato. Mi dispiace (in un certo senso) di essere d'accordo con @whuber in merito al libro in questione sulle prove che abbiamo di fronte . (Aggiornamento: whuber stava facendo essenzialmente lo stesso punto simultaneamente: vedi il suo commento sulla domanda.)
Nick Cox,

10

Prima di tutto, entrambe le virgolette sono fuorvianti in quanto qualsiasi trasformazione applicata ai dati destinati all'uso in un modello di regressione non viene eseguita per rendere i PDF variabili più normalmente distribuiti, ma per rendere i residui del modello più simmetrici poiché un'ipotesi nella regressione classica è che gli errori sono gaussiani. Ciò implica un livello più profondo di rigore e rigore rispetto alla semplice simmetria di un PDF.

Inoltre entrambe le citazioni sono deboli in quanto nessuno approfondisce le motivazioni delle loro prescrizioni (almeno sulla base delle informazioni fornite). Come succede, non sono d'accordo con entrambi.

Nel passaggio che hai evidenziato, il libro SPSS afferma che non sono consentite miscele di trasformazioni (ad es. Log naturale per una variabile, radice quadrata per un'altra). Perché questo è illegale? Miscele di trasformazioni non violano ipotesi di regressione di cui sono a conoscenza. Si prega di controllare eventuali testi di regressione sulle ipotesi di regressione per confermare che questo è il caso. Le miscele di trasformazione potrebbero presentare un problema descrittivo sostanziale in termini di interpretazione, ma non si tratta di stabilire se le miscele siano o meno illegali. Il ragazzo SPSS ha torto.

Per quanto riguarda il secondo testo, ancora una volta, le trasformazioni sono totalmente una questione di scelta dell'analista: indipendentemente dal fatto che le si faccia o meno, si trasformano tutti gli input o alcune variabili e non altre. Niente di tutto ciò viola alcuna ipotesi.

Il punto in cui penso che la seconda citazione vada fuori dai binari è nell'affermazione che "... per evitare la potenziale multicollinearità ... solo un indicatore di uso del suolo (è stato usato) ..." Questo è palesemente un cattivo consiglio e suona come il tipo di cosa che alcuni analisti faranno come una tecnica di riduzione della dimensione in cui analizzeranno un gruppo di variabili e sceglieranno la variabile di carico più alta su ciascun fattore. Questa euristica esiste da anni e non è una di quelle che uso o raccomando. Ancora una volta, questa è una questione di preferenze e formazione degli analisti. Ma questo punto non è mirato a rispondere alle tue domande specifiche.

Alla fine della giornata, entrambe le citazioni risultano essere asserzioni delle opinioni degli autori in assenza di prove a sostegno, basate sulle informazioni fornite.


8
Facciamo punti sostanzialmente simili, ma voglio aggiungere che buoni testi spiegano che gli errori gaussiani sono il presupposto meno importante nella modellizzazione della regressione e non sono necessari per molti scopi.
Nick Cox,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.