Posso usare un punteggio Z con dati distorti e non normali? [chiuso]


12

Ho lavorato con alcuni dati relativi al tempo di ciclo del processo e al ridimensionamento utilizzando il punteggio z standard per confrontare le parti del tempo di ciclo completo.

Dovrei usare qualche altra trasformazione poiché i dati sono fortemente distorti / non normali? (i "valori anomali" non possono mai richiedere tempi negativi e spesso impiegano molto più tempo della "media")

L'uso dello z-score sembra ancora "funzionare" ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

5
Cosa stai chiedendo esattamente? Certo, puoi ancora calcolare -score, ma per cosa stai cercando di usarlo? Il numero di deviazioni standard dalla media (che è lo score) potrebbe non essere una statistica particolarmente utile in alcune situazioni. zz
Macro,

Risposte:


5

Se X è fortemente distorto, la statistica Z non sarà distribuita normalmente (oppure t se la deviazione standard deve essere stimata. Quindi i percentili di Z non saranno normali standard. Quindi, in tal senso, non funziona.


Per quanto ho capito, X essendo molto inclinato significa che la dimensione del campione non era abbastanza grande (teorema del limite centrale). Tuttavia non sono sicuro se la popolazione stessa debba essere normale, affinché la statistica Z funzioni. Vero?
Andrzej Gis,

1
L'OP sta parlando della distribuzione della popolazione e non della distribuzione della media. Quindi la dimensione del campione e il teorema del limite centrale non si applicano.
Michael R. Chernick,

2

Il codice R funzionerà, ma il punteggio z sarà significativo quanto la frase "L'uva sta telefonando leggermente alla penna stilografica". È una frase valida, ma non trasmette nulla di significativo.

A giudicare dal tuo codice R, sembra che tu pensi che i tuoi dati siano distribuiti su Weibull. In tal caso, utilizzerei solo la statistica di Weibull e non ridimensionerei nulla a meno che non sia assolutamente necessario. Anche se i punteggi z vengono insegnati in ogni classe di statistiche introduttive, ciò non significa che dovresti usarli sempre, e soprattutto se non hai dati simmetrici.


1

Se la popolazione non è normalmente distribuita. In tal caso, la distribuzione di bar (X) {media campionaria} si avvicina a una distribuzione normale secondo il teorema del limite centrale; per campioni di grandi dimensioni. Sebbene teoricamente diciamo che stiamo usando Student's-t ma per valori più alti di n (dimensione del campione o grado di libertà), la distribuzione t e la distribuzione Z sono quasi uguali.


-4

I TUOI DATI NON DEVONO ESSERE NORMALI PER UNA Z-TEST. (TOWNEND, 2002) TUTTAVIA, LE VARIE DOVREBBERO ESSERE APPROSSIMAMENTE PARI. PER CONTROLLARE CHE EFFETTUARE UNA F-TEST SUI DUE DATASET E SE LE VOSTRE VARIAZIONI SONO APPROSSIMAMENTE UGUALI, IL RISULTATO DELLA PROVA Z È UTILE. In caso contrario, TRASFORMARE I DATI.


9
La domanda riguarda la trasformazione di una variabile non un test, quindi non credo che la tua risposta sia valida. Inoltre, è probabilmente più informativo se si fornisce il riferimento completo anziché solo un riferimento al nome-anno e alcune persone si oppongono a SHOUTING.
Maarten Buis,

Sono d'accordo con @MaartenBuis, ma a differenza di lui declasserò questo.
Erik,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.