Quali altre trasformazioni normalizzanti vengono comunemente utilizzate oltre a quelle comuni come radice quadrata, log, ecc.?


10

Nell'analisi dei punteggi dei test (ad esempio, in Educazione o Psicologia), le tecniche di analisi comuni spesso presuppongono che i dati siano normalmente distribuiti. Tuttavia, forse il più delle volte, i punteggi tendono a deviare a volte selvaggiamente dal normale.

Conosco alcune trasformazioni normalizzanti di base, come: radici quadrate, logaritmi, trasformazioni reciproche per ridurre l'inclinazione positiva, versioni riflesse di quanto sopra per ridurre l'inclinazione negativa, quadratura per le distribuzioni leptokurtic. Ho sentito parlare di trasformazioni di arcsine e trasformazioni di potenza, sebbene non ne sia davvero informato.

Quindi, sono curioso di sapere quali altre trasformazioni sono comunemente utilizzate dagli analisti?

Risposte:


5

La trasformazione di Box-Cox include molti di quelli che hai citato. Vedi questa risposta per alcuni dettagli:

AGGIORNAMENTO: Queste diapositive offrono una panoramica abbastanza buona delle trasformazioni di Box-Cox.


Se applichiamo t-tools ai dati trasformati Box-Cox otterremo delle inferenze sulla differenza nei mezzi dei dati trasformati. Come possiamo interpretare quelli sulla scala di misura originale? (La media dei valori trasformati non è la media trasformata). In altre parole (se ho ragione), prendere la trasformazione inversa della stima della media, sulla scala trasformata, non fornisce una stima della media sulla scala originale.
George Dontas,

@ gd047, alcuni test assumono la normalità della distribuzione della media, non dei dati. t-test tende ad essere piuttosto robusto rispetto ai dati sottostanti. Hai ragione però: con i test post-trasformazione, i risultati vengono riportati dopo la trasformazione inversa e l'interpretazione può essere molto problematica. Dipende da quanto siano "non normali" i tuoi dati, puoi cavartela senza trasformare o applicare, diciamo, una trasformazione del log che sia più facile da interpretare. Altrimenti, è contestuale alla trasformazione e al dominio attuali e non ho davvero una buona risposta. Potrebbe valere la pena chiedere di vedere cosa dicono gli altri?
ars

10

Il primo passo dovrebbe essere quello di chiedere perché le variabili non sono normalmente distribuite. Questo può essere illuminante. Risultati comuni della mia esperienza:

  • I test di abilità (ad esempio, esami, test di intelligenza, test di ammissione) tendono ad essere distorti negativamente quando ci sono effetti sul soffitto e distorti positivamente quando ci sono effetti sul pavimento. Entrambi i risultati suggeriscono che il livello di difficoltà del test non è ottimizzato per il campione, essendo troppo facile o troppo difficile per differenziare in modo ottimale l'abilità. Implica anche che la variabile latente di interesse possa ancora essere normalmente distribuita, ma che la struttura del test induca una inclinazione nella variabile misurata.
  • I test di abilità hanno spesso valori anomali in termini di marcatori bassi. In breve, ci sono molti modi per fare male in un test. In particolare, ciò può essere visto a volte negli esami in cui vi è una piccola percentuale di studenti in cui una combinazione di mancanza di attitudine e mancanza di sforzo si è combinata per creare punteggi di test molto bassi. Ciò implica che la variabile latente di interesse ha probabilmente alcuni valori anomali.
  • In relazione ai test self-report (ad es. Test di personalità, test di attitudine, ecc.) Si verificano spesso inclinazioni quando il campione è intrinsecamente elevato sulla scala (ad esempio, le distribuzioni della soddisfazione della vita sono distorte negativamente perché la maggior parte delle persone è soddisfatta) o quando la scala è stato ottimizzato per un campione diverso da quello a cui viene applicato il test (ad esempio, applicando una misura clinica della depressione a un campione non clinico).

Questo primo passaggio può suggerire modifiche di progettazione al test. Se sei a conoscenza di questi problemi in anticipo, puoi persino progettare il tuo test per evitarli, se li vedi problematici.

Il secondo passo è decidere cosa fare nella situazione in cui si hanno dati non normali. Le trasformazioni delle note sono solo una possibile strategia. Ribadirei il consiglio generale di una precedente risposta riguardante la non normalità :

  • Molte procedure che presuppongono la normalità dei residui sono robuste a modeste violazioni della normalità dei residui
  • Il bootstrap è generalmente una buona strategia
  • Le trasformazioni sono un'altra buona strategia. Si noti che dalla mia esperienza i tipi di lieve disallineamento che si verificano comunemente con abilità e test psicologici di auto-relazione possono di solito essere facilmente trasformati in una distribuzione che si avvicina alla normalità usando un log, sqrt o una trasformazione inversa (o l'equivalente invertito).

9

John Tukey discute sistematicamente delle trasformazioni nel suo libro sull'EDA. Oltre alla famiglia Box-Cox (trasformazioni di potenza ridimensionate in modo accurato) definisce una famiglia di trasformazioni "piegate" per proporzioni (essenzialmente potenze di x / (1-x)) e conteggi "avviati" (aggiungendo un offset positivo ai dati contati prima di trasformarli). Le trasformazioni piegate, che essenzialmente generalizzano il logit, sono particolarmente utili per i punteggi dei test.

In una prospettiva completamente diversa, Johnson & Kotz nei loro libri sulle distribuzioni offrono molte trasformazioni intese a convertire le statistiche dei test in normalità approssimativa (o in qualche altra distribuzione target), come la trasformazione radice cubica per chi-quadrato. Questo materiale è un'ottima fonte di idee per trasformazioni utili quando prevedi che i tuoi dati seguiranno una distribuzione specifica.


2

Un'opzione semplice consiste nell'utilizzare somme di punteggi anziché i punteggi stessi. La somma delle distribuzioni tende alla normalità. Ad esempio, in Istruzione è possibile aggiungere i punteggi di uno studente a una serie di test.

Un'altra opzione, ovviamente, è quella di utilizzare tecniche che non assumono la normalità, che sono sottovalutate e sottoutilizzate.


1
Credo che le somme debbano essere normalizzate (ad esempio, utilizzare il punteggio medio) affinché la distribuzione tenda alla normalità.

1
Si, è corretto. Nel mio esempio ho pensato che le lezioni avrebbero avuto lo stesso numero di studenti, il che non è realistico. Grazie.
Carlos Accioly,

1

X~FY Lun'mBertW×F

X~N(μ,σ2)θ=(μX,σX,δ,α)α1

Ora, come trasformazione dei dati, questo diventa interessante in quanto la trasformazione è biiettiva (quasi biiettiva per caso distorto) e può essere ottenuta esplicitamente usando la funzione W di Lambert (da cui il nome Lambert W x F). Ciò significa che possiamo rimuovere l'asimmetria dai dati e anche rimuovere le code pesanti (biiettivamente!).

Puoi provarlo usando il pacchetto LambertW R, con il manuale che mostra molti esempi su come usarlo.

Per le applicazioni vedere questi post

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.