Impatto dei limiti dei bin basati sui dati su una bontà chi-quadro del test di adattamento?


18

Lasciando da parte l'ovvia questione della bassa potenza del chi-quadro in questo tipo di circostanza, immagina di fare un test chi-quadrato di test per una certa densità con parametri non specificati, binning dei dati.

Per concretezza, diciamo una distribuzione esponenziale con media sconosciuta e una dimensione del campione di dire 100.

Al fine di ottenere un numero ragionevole di osservazioni attese per bin, è necessario prendere in considerazione i dati (ad es. Se decidessimo di mettere 6 bin al di sotto della media e 4 al di sopra di esso, utilizzeremmo comunque i limiti dei bin basati sui dati) .

Ma questo uso di bin basati sulla visualizzazione dei dati avrebbe presumibilmente un impatto sulla distribuzione della statistica test sotto zero.

Ho visto molte discussioni sul fatto che - se i parametri sono stimati con la massima probabilità dai dati acquisiti - si perde 1 df per parametro stimato (un problema risalente a Fisher vs Karl Pearson) - ma non ricordo leggere qualcosa sulla ricerca dei limiti del cestino stessi in base ai dati. (Se li stimhi dai dati non assegnati, allora con bin la distribuzione della statistica test si trova tra un e un .)kχk2χkp2

Questa scelta di contenitori basata sui dati ha un impatto sostanziale sul livello o sul potere di significatività? Ci sono alcuni approcci che contano più di altri? Se c'è molto di un effetto, è qualcosa che scompare in grandi campioni?

Se ha un impatto sostanziale, questo sembrerebbe rendere l'uso di un test chi-quadrato quando i parametri sono sconosciuti quasi inutili in molti casi (nonostante sia ancora sostenuto in parecchi testi), a meno che tu non abbia avuto un buon -priori stima del parametro.

Sarebbe utile discutere delle questioni o dei riferimenti a riferimenti (preferibilmente con una menzione delle loro conclusioni).


Modifica, praticamente a parte la domanda principale:

Mi viene in mente che ci sono potenziali soluzioni per il caso specifico dell'esponenziale * (e l'uniforme viene a pensarci), ma sono ancora interessato alla questione più generale dell'impatto della scelta dei confini dei bin.

* Ad esempio, per l'esponenziale, si potrebbe usare l'osservazione più piccola (diciamo che è uguale a ) per avere un'idea molto approssimativa di dove posizionare i bin (poiché l'osservazione più piccola è esponenziale con media ), e quindi prova le rimanenti differenze ( ) per esponenzialità. Naturalmente ciò potrebbe produrre una stima molto scadente di , e quindi delle scelte sbagliate di bin, anche se suppongo che si possa usare l'argomento in modo ricorsivo per prendere le due o tre osservazioni più basse da cui scegliere i bin ragionevoli e quindi testare le differenze di le restanti osservazioni sopra la più grande di quelle statistiche di ordine più piccolo per esponenzialità)mμ/nn1ximμ


1
Domanda interessante. Non conosco la risposta, ma l'idea che alcuni gradi di libertà vadano persi ha senso. Se non l'avevi già visto, questa risposta di @whuber dovrebbe essere stimolante: come comprendere i gradi di libertà . Mi sembra che alcuni studi di simulazione dovrebbero permetterti di ottenere una visione qui, almeno per alcuni casi specifici.
gung - Ripristina Monica

1
Non sono sicuro di quanto sia utile, ma esiste un problema simile nel campo della stima robusta. In particolare, un metodo di stima robusta (ad es. Media ritagliata) richiede spesso un input parametrizzato (ad es. Parametro che definisce quanto tagliare). Questo parametro può essere scelto con un metodo basato sui dati (ad es. Vedere quanto sono grosse le code prima di scegliere il parametro di taglio). Ma la preselezione del parametro di taglio influisce sulla distribuzione della media tagliata, rispetto, per esempio, a una regola di parametro fissa. Il solito modo in cui viene trattato in quella letteratura è tramite un bootstrap.
Colin T Bowers,

@ColinTBowers - potenzialmente un po 'utile, grazie. Non ho pensato alla possibilità di avviare il bootstrap.
Glen_b -Restate Monica

1
Potrebbe essere interessante scomporre il problema in un caso più semplice. Immagina qualcosa come solo 5 osservazioni dalla tua distribuzione preferita e metti un singolo divisore nei dati per formare solo due bin.
zkurtz,

Risposte:


15

I risultati di base dei test di bontà di adattamento chi-quadro possono essere compresi gerarchicamente .

Livello 0 . La statistica classica del test chi-quadrato di Pearson per testare un campione multinomiale rispetto a un vettore di probabilità fisso è dove indica il numero di risultati nel esima cella su un campione di dimensioni . Questo può essere fruttuosamente visto come la norma quadrata del vettore dove che, secondo il teorema del limite centrale multivariato converge nella distribuzione come p

X2(p)=i=1k(Xi(n)npi)2npidχk12,
Xi(n)inYn=(Y1(n),,Yk(n))Yi(n)=(Xi(n)npi)/npi
YndN(0,IppT).
Da ciò vediamo che poiché è idempotente del grado .X2=Yn2χk12IppTk1

Livello 1 . Al livello successivo della gerarchia, consideriamo ipotesi composite con campioni multinomiali. Poiché l'esatta di interesse non è nota sotto l'ipotesi nulla, dobbiamo stimarla. Se l'ipotesi nulla è composita e composta da un sottospazio lineare di dimensione , le stime di massima verosimiglianza (o altri stimatori efficienti) di possono essere utilizzate come stimatori "plug-in". Quindi, la statistica sotto l'ipotesi nulla.pmpi

X12=i=1k(Xi(n)np^i)2np^idχkm12,

Livello 2 . Considera il caso della bontà del test di adattamento di un modello parametrico in cui le celle sono fisse e conosciute in anticipo: Ad esempio, abbiamo un campione da una distribuzione esponenziale con rate e da questo produciamo un campione multinomiale eseguendo il binning su celle , quindi il risultato di cui sopra è ancora valido a condizione che utilizziamo stime efficienti (ad esempio, MLE) delle probabilità bin stesse utilizzando solo le frequenze osservate .λk

Se il numero di parametri per la distribuzione è (ad esempio, nel caso esponenziale), allora dove qui può essere prese per essere le MLE delle probabilità delle celle delle celle fisse e note corrispondenti alla distribuzione data di interesse.mm=1

X22=i=1k(Xi(n)np^i)2np^idχkm12,
p^i

Livello 3 . Ma aspetta! Se abbiamo un campione , perché non dovremmo prima stimare efficiente e quindi utilizzare una statistica chi-quadrato con le nostre celle fisse e conosciute? Bene, possiamo, ma in generale non otteniamo più una distribuzione chi-quadro per la corrispondente statistica chi-quadrato. In effetti, Chernoff e Lehmann (1954) mostrarono che l'uso di MLE per stimare i parametri e poi ricollegarli per ottenere stime delle probabilità delle cellule si traduce in una distribuzione non-chi-quadro, in generale. In condizioni di regolarità adeguate, la distribuzione è (stocasticamente) tra una variabile casuale e una variabile casuale , con distribuzione dipendente dai parametri.Z1,,ZnFλλχkm12χk12

Inavvertitamente, ciò significa che la distribuzione limitante di è .YnN(0,IpλpλTA(λ))

Non abbiamo ancora parlato dei confini casuali delle cellule e siamo già in un punto stretto! Ci sono due vie d'uscita: una è di tornare al Livello 2, o almeno non usare stimatori efficienti (come MLE) dei parametri sottostanti . Il secondo approccio è cercare di annullare gli effetti di in modo da recuperare una distribuzione chi-quadro.λA(λ)

Esistono diversi modi per percorrere quest'ultima strada. Fondamentalmente a per la matrice "giusta" . Quindi, la forma quadratica dove è il numero di celle.YnB(λ^)

YnTBTBYndχk12,
k

Esempi sono la statistica Rao – Robson – Nikulin e la statistica Dzhaparidze – Nikulin .

Livello 4 . Celle casuali. Nel caso di cellule casuali, in determinate condizioni di regolarità, finiamo nella stessa situazione del Livello 3 se prendiamo la strada della modifica della statistica del chi-quadrato di Pearson. Le famiglie in base alla posizione, in particolare, si comportano molto bene. Un approccio comune è prendere le nostre cellule ciascuna per avere probabilità , nominalmente. Quindi, le nostre celle casuali sono intervalli della forma dove . Questo risultato è stato ulteriormente esteso al caso in cui il numero di cellule casuali cresce con la dimensione del campione.k1/kI^j=μ^+σ^I0,jI0,j=[F1((j1)/k),F1(j/k))

Riferimenti

  1. A W. van der Vaart (1998), Asymptotic Statistics , Cambridge University Press. Capitolo 17 : Test Chi-Square .

  2. H. Chernoff e EL Lehmann (1954), L'uso delle stime della massima verosimiglianza nei test per la bontà di adattamentoχ2 , Ann. Matematica. Statist. , vol. 25, n. 3, 579-586.

  3. FC Drost (1989), Test di bontà di adattamento chi-quadro generalizzato per modelli in scala di posizione quando il numero di classi tende all'infinito , Ann. Stat , vol. 17, n. 3, 1285–1300.

  4. MS Nikulin, MS (1973), test Chi-quadro per la distribuzione continua con parametri di spostamento e scala , Teoria della probabilità e sua applicazione , vol. 19, n. 3, 559-568.

  5. KO Dzaparidze e MS Nikulin (1973), Su una modifica delle statistiche standard di Pearson , Theory of Probability and its Application , vol. 19, n. 4, 851–853.

  6. KC Rao e DS Robson (1974), una statistica chi-quadro per i test di bontà di adattamento all'interno della famiglia esponenziale , Comm. Statist. , vol 3., no. 12, 1139-1153.

  7. N. Balakrishnan, V. Voinov e MS Nikulin (2013), Test di bontà su chi-quadrato delle applicazioni con applicazioni , Academic Press.


5

Di seguito ho trovato risposte parziali alla mia domanda. (Vorrei ancora dare a qualcuno quel bonus, quindi ogni ulteriore informazione è stata apprezzata.)

Moore (1971) affermò che Roy (1956) e Watson (1957,58,59) mostrarono che quando i confini delle cellule per una statistica chi-quadro sono funzioni dei migliori valori dei parametri stimati normali asintotici, quindi in certe condizioni, la distribuzione nulla asintotica della statistica chi-quadrato è ancora quella di una somma di un e una somma ponderata delle variabili (per celle, parametri ) dove i pesi sono compresi tra 0 e 1 (facendo il cdf della distribuzione tra quello di un e un , come accennato nella mia domanda per la distribuzione quando si usa la stima ML), e i pesi su questi ultimiχkp12p χ12kpχkp2χk2p i termini non sono interessati da tale stima.

Riferimenti

Moore DS (1971), Una statistica Chi-quadrato con confini casuali delle cellule , Ann. Matematica. Statistica. , Vol 42, n. 1, 147–156.

Roy AR (1956), Statistiche su a intervalli variabiliχ2 , Rapporto tecnico n. 1 , Dipartimento di statistica, Università di Stanford.

Watson, GS (1957), Il test di bontà di adattamento per le distribuzioni normaliχ2 , Biometrika , 44 , 336–348.

Watson, GS (1958), On test di bontà di adattamento per distribuzioni continueχ2 , J. Royal Statist. Soc. B , 20 , 44–61.

Watson, GS (1959), Alcuni risultati recenti in test di bontà di adattamentoχ2 , Biometria , 15 , 440-468

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.