Perché la kurtosi altamente positiva è problematica per i test di ipotesi?


13

Ho sentito (scusate non posso fornire un collegamento a un testo, qualcosa che mi è stato detto) che un'alta curtosi positiva dei residui può essere problematica per test di ipotesi accurati e intervalli di confidenza (e quindi problemi con l'inferenza statistica). È vero e, in tal caso, perché? Un'alta curtosi positiva dei residui non indicherebbe che la maggior parte dei residui è vicina alla media residua di 0 e quindi sono presenti residui meno grandi? (Se hai una risposta, prova a dare una risposta con poca matematica approfondita poiché non sono molto incline alla matematica).


4
Immagino che ti stai concentrando su modelli con condizioni ideali di termini di errore normali (gaussiani). (In molti altri contesti, ci si potrebbe aspettare un'alta curtosi dei residui.) È molto probabile che un'alta curtosi implichi una distribuzione più grassa della normale, quindi alcuni residui molto alti (+ o -). Anche se ce ne sono molti vicino allo zero, questa è solo la buona notizia, ed è la possibile cattiva notizia che richiede attenzione. Ma a sua volta ciò potrebbe significare qualsiasi cosa qualsiasi numero di cose. Una trama residua rispetto a quella montata è generalmente più istruttiva.
Nick Cox,

In effetti, mi stavo concentrando su modelli con ipotesi di normalità.
DDK,

Risposte:


15

sentito [...] che un'alta curtosi positiva dei residui può essere problematica per accurati test di ipotesi e intervalli di confidenza (e quindi problemi con l'inferenza statistica). È vero e, in tal caso, perché?

Per alcuni tipi di test di ipotesi, è vero.

Un'alta curtosi positiva dei residui non indicherebbe che la maggior parte dei residui è vicina alla media residua di 0 e quindi sono presenti residui meno grandi?

No.

Sembra che tu stia fondendo il concetto di varianza con quello di kurtosi. Se la varianza fosse più piccola, allora una tendenza a più piccoli residui e meno grandi residui si unirebbe. Immagina di mantenere costante la deviazione standard mentre cambiamo la curtosi (quindi stiamo sicuramente parlando di cambiamenti alla curtosi piuttosto che alla varianza).

Confronta diverse varianze (ma la stessa curtosi):

inserisci qui la descrizione dell'immagine

con diversa curtosi ma la stessa varianza:

inserisci qui la descrizione dell'immagine

(immagini da questo post )

Un'alta curtosi è in molti casi associata a più piccole deviazioni dalla media - più piccoli residui di quelli che potresti trovare con una distribuzione normale .. ma per mantenere la deviazione standard allo stesso valore, dobbiamo anche avere più grandi residui (perché avere più piccoli residui ridurrebbe la distanza tipica dalla media). Per ottenere più sia i residui grandi sia i residui piccoli, avrai meno residui "di dimensioni tipiche", quelli a circa una deviazione standard dalla media.

dipende da come si definisce "piccolezza"; non puoi semplicemente aggiungere molti residui di grandi dimensioni e mantenere costante la varianza, hai bisogno di qualcosa per compensarlo - ma per una certa misura di "piccolo" puoi trovare modi per aumentare la curtosi senza aumentare quella particolare misura. (Ad esempio, una curtosi più elevata non implica automaticamente un picco più elevato in quanto tale)

Una curtosi più elevata tende ad andare con residui più grandi, anche quando si mantiene costante la varianza.

[Inoltre, in alcuni casi, la concentrazione di piccoli residui può effettivamente portare a un problema maggiore rispetto alla frazione aggiuntiva dei residui più grandi, a seconda delle cose che stai osservando.]

Comunque, diamo un'occhiata a un esempio. Prendi in considerazione un test t per un campione e una dimensione del campione di 10.

Se rifiutiamo l'ipotesi nulla quando il valore assoluto della statistica t è maggiore di 2.262, allora quando le osservazioni sono indipendenti, distribuite in modo identico da una distribuzione normale e la media ipotizzata è la media della popolazione vera, rifiuteremo il valore nullo ipotesi il 5% delle volte.

Considera una distribuzione particolare con kurtosi sostanzialmente più elevata della normale: il 75% della nostra popolazione ha i suoi valori tratti da una distribuzione normale e il restante 25% ha i suoi valori estratti da una distribuzione normale con deviazione standard 50 volte più grande.

Se ho calcolato correttamente, ciò corrisponde a una curtosi di 12 (una curtosi in eccesso di 9). La distribuzione risultante è molto più intensa rispetto alla normale e ha code pesanti. La densità viene confrontata con la densità normale sottostante: puoi vedere il picco più alto, ma non puoi davvero vedere la coda più pesante nell'immagine a sinistra, quindi ho anche tracciato il logaritmo delle densità, che si estende nella parte inferiore di l'immagine e comprime la parte superiore, rendendo più semplice la visualizzazione sia del picco che della coda.

inserisci qui la descrizione dell'immagine

Il livello di significatività effettivo per questa distribuzione se si esegue un test t per un campione "5%" con è inferiore allo 0,9%. Questo è piuttosto drammatico e abbassa sostanzialmente la curva di potenza.n=10

(Vedrai anche un effetto sostanziale sulla copertura degli intervalli di confidenza.)

Si noti che una diversa distribuzione con la stessa kurtosi avrà un impatto diverso sul livello di significatività.


Quindi perché il tasso di rifiuto diminuisce? È perché la coda più pesante porta ad alcuni grandi valori anomali, che hanno un impatto leggermente maggiore sulla deviazione standard rispetto alla media; questo influisce sulla statistica t perché porta a più valori t tra -1 e 1, riducendo nel contempo la proporzione di valori nella regione critica.

Se prendi un campione che sembra abbastanza coerente con il fatto che provenga da una distribuzione normale la cui media è appena abbastanza al di sopra della media ipotizzata che sia significativa, e quindi prendi l'osservazione più lontana sopra la media e la allontani ancora di più (cioè, rendere il mezzo ancora più grande di sotto ), effettivamente fare la statistica t più piccoli .H0

Lascia che ti mostri. Ecco un esempio di taglia 10:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23

Immagina di voler testarlo con (un test t di un campione). Si scopre che qui la media del campione è 2,68 e la deviazione standard del campione è 0,9424. Ottieni una statistica t di 2.282 - proprio nella regione di rifiuto per un test del 5% (valore p di 0,0484).H0:μ=2

Ora rendi quel valore più grande 50:

      1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50

Chiaramente tiriamo su la media, quindi dovrebbe indicare una differenza anche più di prima, giusto? Bene, no, non lo fa. La statistica t scende . Ora è 1.106 e il valore p è abbastanza grande (vicino al 30%). Quello che è successo? Bene, abbiamo alzato la media (a 7.257), ma la deviazione standard è aumentata di oltre 15.

Le deviazioni standard sono un po 'più sensibili ai valori anomali di quanto non lo siano le medie: quando si inserisce un valore anomalo, si tende a spingere la statistica t di un campione verso 1 o -1.

Se c'è la possibilità di diversi valori anomali, accade lo stesso solo che a volte possono trovarsi su lati opposti (nel qual caso la deviazione standard è ancora più gonfiata mentre l'impatto sulla media è ridotto rispetto a un valore anomalo), quindi la statistica t tende ad avvicinarsi a 0.

Cose simili continuano con una serie di altri test comuni che assumono la normalità: una curtosi più alta tende ad essere associata a code più pesanti, il che significa più valori anomali, il che significa che le deviazioni standard vengono gonfiate rispetto ai mezzi e quindi le differenze che vuoi raccogliere tendono essere "sommerso" dall'impatto degli outlier sul test. Cioè, a bassa potenza.


1
Wow, grazie mille per la risposta molto chiara ed elaborata. Il tuo tempo è molto apprezzato!
DDK,

Vale anche la pena notare che, mentre la distribuzione di grandi campioni della media del campione non dipende dalla curtosi (quindi, il livello di significatività effettiva dei test di assunzione della normalità per i mezzi converge al livello nominale, tipicamente .05, come n-> infinito, per tutta la curtosi finita), lo stesso non vale per i test per le varianze. La grande distribuzione del campione della varianza stimata dipende dalla curtosi, quindi l'attuale livello di significatività dei test classici, ipotizzando la varianza, non converge al livello nominale come n -> infinito quando la curtosi è diversa da zero.
Peter Westfall,

Inoltre, una curtosi più elevata non implica, matematicamente, che ci siano "più piccole deviazioni dalla media". L'unica cosa che ti dice per certo è che c'è di più nella coda.
Peter Westfall,

Non è possibile ottenere deviazioni più grandi e mantenere costante la varianza a meno che non si effettuino anche deviazioni più piccole; se non mantieni costante la varianza, molte delle tue deviazioni diventano piccole rispetto alla nuova scala. Quindi sì, quando si tratta di curare la curtosi, la matematica ti dice che più grande porta con sé più piccolo.
Glen_b

@Peter Prendiamo come standardizzata . Kurtosis è e è monotonico in . Se sposto ulteriormente la probabilità nella coda di , alcune probabilità devono spostarsi verso la media (o non riesco a trattenere ). Allo stesso modo, se sposto ulteriormente la probabilità nella coda di e lascio aumentare la varianza, è più ampio, e quindi per almeno alcuni valori di più del resto della distribuzione tenderà a cadere all'interno di questi limiti ; dopo aver standardizzato la nuova (da aX κ = E ( Z 4 ) ZXκ=E(Z4)κZVar(Z)=1Xμ±kσkXXZκ1=E(Z2)κZVar(Z)=1Xμ±kσkXXZdiciamo), hai valori più piccoli in questo senso diretto.
Glen_b

4

La kurtosi misura i valori anomali. I valori anomali sono problematici per le inferenze standard (ad esempio, test t, intervalli t) che si basano sulla distribuzione normale. Questa è la fine della storia! Ed è davvero una storia piuttosto semplice.

Il motivo per cui questa storia non è molto apprezzata è perché persiste l'antico mito secondo cui la curtosi misura il "picco".

Ecco una semplice spiegazione che mostra perché la kurtosi misura i valori anomali e non "il picco".

Considera il seguente set di dati.

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1

La curtosi è il valore atteso dei (valori z) ^ 4. Ecco i (valori-z) ^ 4:

6.51, 0.30, 5.33, 0.45, 0.00, 0.30, 6.51, 0.00, 0.45, 0.30, 0.00, 6.51, 0.00, 0.00, 0.30, 0.00, 27.90, 0.00, 0.30, 0.45

La media è 2,78 e questa è una stima della curtosi. (Sottrai 3 se vuoi l'eccessiva curtosi.)

Ora, sostituisci l'ultimo valore di dati con 999 in modo che diventi un valore anomalo:

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Ora, ecco i (valori-z) ^ 4:

0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98

La media è di 18,05 e questa è una stima della curtosi. (Sottrai 3 se vuoi l'eccessiva curtosi.)

Chiaramente, contano solo i valori anomali. Nulla riguarda il "picco" o i dati vicino al centro.

Se si eseguono analisi statistiche standard con il secondo set di dati, è necessario prevedere problemi. La grande curtosi ti avvisa del problema.

Ecco un documento che elabora:

Westfall, PH (2014). Kurtosis as Peakedness, 1905 - 2014. RIP The American Statistician, 68, 191–195.


Perché non usare solo test non parametrici? Per questi tipi di problemi è probabile che siano superiori.
Carl

1
D'accordo, questa è una possibile strada, SE ti piacciono i test, che sta rapidamente diventando meno interessante nella sua forma classica. Ma questa non è davvero la mia preoccupazione. Sono più interessato alla modellistica probabilistica in generale. Un'applicazione: forse sei veramente interessato alla media, ad esempio, nei casi in cui la variabile dipendente è dollari guadagnati, la media del processo è più interessante della mediana del processo. Quindi, cosa indicano i dati sul processo quando i dati sono soggetti a anomalie? È un problema difficile, ma importante, e la curtosi del momento è rilevante per la risposta. Non test nonpar.
Peter Westfall,

Per la distribuzione di Cauchy, la media tagliata può essere una misura migliore della posizione rispetto alla mediana, e la media ordinaria non sarebbe una misura della posizione. Cosa usare come misura della posizione dipende da quale sia la distribuzione. Un esempio per il quale la curtosi non sarebbe utile come indicatore è la distribuzione uniforme per la quale il valore estremo medio è una misura migliore della posizione rispetto alla mediana e alla media.
Carl

Non è il punto. Se sei interessato ai totali, ad esempio dollari, la media ordinaria è la misura della posizione desiderata.
Peter Westfall,

Se hai una variabile distribuita di Cauchy, puoi fare un caso per il totale dei dollari guadagnati, ma la media non sarà una misura particolarmente utile della posizione, il che significa che il "valore atteso" non ha aspettative ragionevoli associate.
Carl

-3

La curtosi indica anche code asimmetriche. In un test di ipotesi a due code, una coda sarà una coda lunga e l'altra sarà una coda corta. Una delle code può essere> alfa, ma <beta. Una coda avrebbe superato il valore p, ma l'altra no.

Fondamentalmente, l'inferenza statistica assume uno standard normale. Quando non è un normale standard, potresti cavartela con un'inferenza basata su alcuni meccanismi di inferenza più sofisticati. Potresti essere in grado di dedurci da Poisson, ma con una distribuzione che non è normale, non puoi usare l'inferenza basata su normali.

L'inclinazione e la curtosi sono una misura della non normalità. Impariamo a prendere mezzi e ad usare le normali distribuzioni prima di sapere che dobbiamo testare la normalità. Una normale richiede 36 o più punti dati per ogni dimensione. Puoi stimare in 20 punti dati, ma avrai comunque inclinazione e curtosi. Man mano che la distribuzione si avvicina alla normalità, l'inclinazione e la distribuzione scompaiono.

Una delle spiegazioni ha definito la curtosi come picco. Un altro no. Questa è una lotta instabile in questo momento. La kurtosi è il quarto momento, un'area. Sono sul non picco del problema.

Un'altra idea che è là fuori è che con una inclinazione, la mediana si inclina verso la modalità formando un triangolo. Godere.


1
Non è chiaro che questo aggiunge qualcosa di utile e diverso a risposte già eccellenti. Aggiunge diverse dichiarazioni sconcertanti, ad esempio "normale richiede 36 o più punti dati" (quindi 35 non OK? Qual è la base per questa affermazione? "L'asimmetria come picco" "Non credo che qualcuno lo stia affermando". L'inferenza statistica presuppone che standard normale ": non in generale. La curtosi è il quarto momento, un'area: no; la curtosi come definita qui è un rapporto senza dimensioni, basato sul quarto e secondo momento sulla media.
Nick Cox,

Il quarto momento è un integrale, quindi è un'area. Il modo in cui quell'area viene tradotta in picco o curvatura è perso su di me.
David W. Locke,

La tipica spiegazione della kurtosi è il picco, ma secondo me è sbagliato. Modificherò la mia risposta originale per cambiare l'asimmetria come picco per dire che la curtosi è ... Grazie.
David W. Locke,

Le code non sono simmetriche. Non ho mai visto nulla sull'inferenza statistica che consideri le code asimmetriche. Il rischio di curtosi si verifica perché le code si sposteranno man mano che vengono raccolti più punti dati. L'inclinazione e la curtosi consistono nel non disporre di dati sufficienti per raggiungere uno standard normale.
David W. Locke,

1
Non è così: esiste una massa di teoria e applicazioni per esponenziale, gamma, Weibull e molte, molte altre distribuzioni che non sono normali.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.