Gamma di valori di asimmetria e curtosi per distribuzione normale


11

Voglio sapere che cosa è la gamma dei valori di asimmetria e curtosi per i quali i dati sono considerati essere distribuito normalmente.

Ho letto molti argomenti e soprattutto ho avuto risposte confuse. Alcuni sostengono che l'asimmetria e per la curtosi sia un intervallo accettabile per la distribuzione normale. Alcuni dicono che per l' è un intervallo accettabile. Ho trovato una discussione dettagliata qui: qual è la gamma accettabile di asimmetria e curtosi per la normale distribuzione dei dati su questo problema. Ma non sono riuscito a trovare alcuna dichiarazione decisiva.(-1,1)(-2,2)(-1.96,1.96)

Qual è la base per decidere un tale intervallo? È una scelta soggettiva? O c'è qualche spiegazione matematica dietro questi intervalli?


3
Cosa o chi definisce "accettabile"?
Glen_b

Questa è una buona domanda. Non ho una risposta chiara per questo.
Dark_Knight

Sono corretto nel pensare che porre alla base la tua domanda sia un metodo implicito, qualcosa del tipo: "Prima di stimare questo modello / eseguire quel test, controlla l'asimmetria e la curtosi del campione. Se sono entrambi entro determinati intervalli prestabiliti, usa alcuni normale procedura teorica, altrimenti usa qualcos'altro ". ...?
Glen_b -Restate Monica,

In tal caso, quali sono le procedure con ipotesi normali su cui potresti utilizzare un simile approccio? Su quali variabili lo verificheresti? Quali sono le procedure alternative che useresti se avessi concluso che non erano "accettabili" da qualche criterio?
Glen_b -Restate Monica

Inoltre - e questo può essere importante per il contesto, in particolare nei casi in cui viene offerto qualche ragionamento per la scelta di alcuni limiti - puoi includere eventuali citazioni da cui derivano intervalli come questi che puoi ottenere (specialmente dove gli intervalli suggeriti sono piuttosto diverso)? Una cosa che sarebbe utile sapere da un simile contesto: per quali situazioni stanno usando questo tipo di cose?
Glen_b -Restate Monica

Risposte:


6

Il post originale manca un paio di punti importanti: (1) Nessun "dato" può mai essere normalmente distribuito. I dati sono necessariamente discreti. La domanda valida è "il processo che ha prodotto i dati è un processo normalmente distribuito?" Ma (2) la risposta alla seconda domanda è sempre "no", indipendentemente da ciò che ti dà qualsiasi test statistico o altra valutazione basata sui dati. I processi normalmente distribuiti producono dati con continuità infinita, simmetria perfetta e probabilità specificate con precisione all'interno di intervalli di deviazione standard (ad es. 68-95-99.7), nessuno dei quali è mai esattamente vero per i processi che danno origine ai dati che possiamo misurare con qualunque cosa dispositivo di misurazione che noi umani possiamo usare.

Quindi non puoi mai considerare i dati come distribuiti normalmente e non puoi mai considerare il processo che ha prodotto i dati come un processo esattamente distribuito normalmente. Ma, come indicato da Glen_b, potrebbe non importare troppo, a seconda di cosa stai cercando di fare con i dati.

Le statistiche di asimmetria e kurtosi possono aiutarti a valutare determinati tipi di deviazioni dalla normalità del tuo processo di generazione dei dati. Sono statistiche altamente variabili, però. Gli errori standard indicati sopra non sono utili perché sono validi solo in condizioni normali, il che significa che sono utili solo come test per la normalità, un esercizio essenzialmente inutile. Sarebbe meglio usare il bootstrap per trovare se, anche se sarebbero necessari grandi campioni per ottenere se accurati.

Inoltre, la curtosi è molto facile da interpretare, contrariamente al precedente post. È la media (o valore atteso) dei valori Z, ciascuno portato alla quarta potenza. Grande | Z | i valori sono anomali e contribuiscono fortemente alla curtosi. Piccolo | Z | valori, dove si trova il "picco" della distribuzione, danno valori Z ^ 4 che sono minuscoli e non contribuiscono essenzialmente alla curtosi. Ho dimostrato nel mio articolo https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ che la curtosi è molto ben approssimata dalla media dei valori Z ^ 4 * I (| Z |> 1). Quindi la curtosi misura la propensione del processo di generazione dei dati a produrre valori anomali.


Giusto per chiarire, cosa intendi esattamente per "processo normalmente distribuito"? Capisco quello che stai dicendo sulla discrezione e la continuità delle variabili casuali, ma che dire dell'assunto riguardo alla distribuzione normale che può essere fatto usando il teorema del limite centrale?
Dark_Knight,

CLT non è rilevante qui - stiamo parlando della distribuzione che produce valori di dati individuali, non medie. Un "processo normalmente distribuito" è un processo che produce variabili casuali normalmente distribuite. Un perfetto generatore di numeri casuali normale sarebbe un esempio (una cosa del genere non esiste, ma sono dannatamente buoni nel software che usiamo.)
Peter Westfall,

Inoltre, poiché nessun processo che produce dati che possiamo analizzare è un processo normale, ne consegue anche che la distribuzione delle medie prodotte da tale processo non è mai esattamente normale, indipendentemente dalle dimensioni del campione. Ma sì, le distribuzioni di tali medie potrebbero essere vicine alle distribuzioni normali secondo il CLT. La vicinanza di tali distribuzioni alla normalità dipende da (i) dimensione del campione e (ii) grado di non normalità del processo di generazione dei dati che produce i singoli valori di dati.
Peter Westfall,

4
Ciao Peter, puoi evitare riferimenti come "quanto sopra" perché l'ordinamento cambierà. Quello che è sopra per te potrebbe non essere sopra per la prossima persona a guardare. Se intendi il post di Gung o il mio post (ancora in fase di modifica, poiché sto lavorando su diversi aspetti di esso) puoi semplicemente identificarli dal loro autore.
Glen_b -Restate Monica

Sembra che quanto sopra asserisca che una curtosi più elevata implica una maggiore tendenza a produrre valori anomali. A meno che non definiate gli outlier tautologicamente (cioè per rendere vera l'affermazione), questa non è un'affermazione vera nel caso generale. Ad esempio, è ragionevolmente facile costruire coppie di distribuzioni in cui quella con una coda più pesante ha una curtosi inferiore.
Glen_b -Restate Monica

5

Quello che sembra chiedere qui è un errore standard per l'incertezza e la curtosi di un campione prelevato da una popolazione normale. Si noti che esistono vari modi per stimare cose come l' asimmetria o la coda grassa (curtosi), che ovviamente influenzeranno quale sarà l'errore standard. Le misure più comuni a cui la gente pensa sono più tecnicamente conosciute come il 3 ° e il 4 ° momento standardizzato.

[1,)3KurtoSioS-3[-2,)SKewneSS2+124/N0

Per quello che vale, gli errori standard sono:

SE(SKewneSS)=6N(N-1)(N-2)(N+1)(N+3)SE(KurtoSioS)=2×SE(SKewneSS)N2-1(N-3)(N+5)

0

  • <|.5|
  • [|.5|,|1|)
  • |1|

Una buona panoramica introduttiva di asimmetria e curtosi può essere trovata qui .


3

[Di seguito, suppongo che stai proponendo qualcosa del tipo "controlla l'asimmetria del campione e la curtosi, se entrambi rientrano in determinati intervalli prestabiliti, usa una normale procedura teorica, altrimenti usa qualcos'altro".]

Ci sono molti aspetti, di cui avremo spazio solo per una manciata di considerazioni. Inizierò elencando quali ritengo possano essere importanti le questioni importanti prima di passare a un criterio come questo. Tenterò di tornare e scrivere un po 'su ogni elemento in seguito:

Problemi da considerare

  1. Quanto importerebbero vari tipi di non-normalità a tutto ciò che stiamo facendo?

  2. Quanto è difficile raccogliere quelle deviazioni usando intervalli su inclinazione del campione e curtosi?

    Una cosa con cui sono d'accordo nella proposta: esamina un paio di misure relative alla dimensione dell'effetto ( quanta deviazione dalla normalità) piuttosto che al significato. In tal senso si avvicinerà a qualcosa di utile che farebbe un test di ipotesi formale, che tenderà a rifiutare anche deviazioni banali a campioni di grandi dimensioni, offrendo al contempo la falsa consolazione del non rifiuto di deviazioni molto più grandi (e più di impatto) a campioni di piccole dimensioni. (I test di ipotesi affrontano la domanda sbagliata qui.)

    Ovviamente a campioni di piccole dimensioni è ancora problematico, nel senso che le misure sono molto "rumorose", quindi possiamo ancora sviarci lì (un intervallo di confidenza ci aiuterà a vedere quanto potrebbe essere effettivamente male).

    Non ci dice come una deviazione nell'asimmetria o nella curtosi sia correlata a problemi con ciò per cui desideriamo la normalità - e le diverse procedure possono essere molto diverse nelle loro risposte alla non normalità.

    Non ci aiuta se la nostra deviazione dalla normalità è di un tipo al quale l'asimmetria e la curtosi saranno cieche.

  3. Se stai usando queste statistiche di esempio come base per decidere tra due procedure, qual è l'impatto sulle proprietà dell'inferenza risultante (ad es. Per un test di ipotesi, che aspetto hanno il tuo livello di significatività e potenza nel fare questo?)

  4. Esiste un numero infinito di distribuzioni che hanno esattamente la stessa inclinazione e curtosi della distribuzione normale ma sono chiaramente non normali. Non hanno nemmeno bisogno di essere simmetrici! In che modo l'esistenza di tali cose influisce sull'uso di tali procedure? L'impresa è condannata dall'inizio?

  5. Quanta variazione nell'asimmetria e nella curtosi del campione è stata osservata nei campioni tratti dalle normali distribuzioni? (Quale proporzione di campioni normali finiremmo col buttar fuori da una regola?)

    [In parte questo problema è legato ad alcune delle discussioni di Gung nella sua risposta.]

  6. Potrebbe esserci qualcosa di meglio da fare invece?

Infine, se dopo aver considerato tutti questi problemi decidiamo che dovremmo andare avanti e utilizzare questo approccio, arriviamo alle considerazioni derivanti dalla tua domanda:

  1. quali sono i buoni limiti da porre sull'asimmetria e sulla curtosi per varie procedure? Di quali variabili dobbiamo preoccuparci in quali procedure?

    (ad esempio se stiamo facendo regressione, nota che non è corretto trattare con qualsiasi IV e persino il DV grezzo in questo modo - nessuno di questi si presume sia stato tratto da una distribuzione normale comune)


Tornerò e aggiungerò alcuni pensieri, ma eventuali commenti / domande che potresti avere nel frattempo potrebbero essere utili.


0

E non capisco anche perché abbiamo bisogno di un particolare intervallo di valori per l'asimmetria e la curtosi per eseguire qualsiasi test di normalità?
Dark_Knight,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.