Lasciando da parte l'ovvia questione della bassa potenza del chi-quadro in questo tipo di circostanza, immagina di fare un test chi-quadrato di test per una certa densità con parametri non specificati, binning dei dati.
Per concretezza, diciamo una distribuzione esponenziale con media sconosciuta e una dimensione del campione di dire 100.
Al fine di ottenere un numero ragionevole di osservazioni attese per bin, è necessario prendere in considerazione i dati (ad es. Se decidessimo di mettere 6 bin al di sotto della media e 4 al di sopra di esso, utilizzeremmo comunque i limiti dei bin basati sui dati) .
Ma questo uso di bin basati sulla visualizzazione dei dati avrebbe presumibilmente un impatto sulla distribuzione della statistica test sotto zero.
Ho visto molte discussioni sul fatto che - se i parametri sono stimati con la massima probabilità dai dati acquisiti - si perde 1 df per parametro stimato (un problema risalente a Fisher vs Karl Pearson) - ma non ricordo leggere qualcosa sulla ricerca dei limiti del cestino stessi in base ai dati. (Se li stimhi dai dati non assegnati, allora con bin la distribuzione della statistica test si trova tra un e un .)
Questa scelta di contenitori basata sui dati ha un impatto sostanziale sul livello o sul potere di significatività? Ci sono alcuni approcci che contano più di altri? Se c'è molto di un effetto, è qualcosa che scompare in grandi campioni?
Se ha un impatto sostanziale, questo sembrerebbe rendere l'uso di un test chi-quadrato quando i parametri sono sconosciuti quasi inutili in molti casi (nonostante sia ancora sostenuto in parecchi testi), a meno che tu non abbia avuto un buon -priori stima del parametro.
Sarebbe utile discutere delle questioni o dei riferimenti a riferimenti (preferibilmente con una menzione delle loro conclusioni).
Modifica, praticamente a parte la domanda principale:
Mi viene in mente che ci sono potenziali soluzioni per il caso specifico dell'esponenziale * (e l'uniforme viene a pensarci), ma sono ancora interessato alla questione più generale dell'impatto della scelta dei confini dei bin.
* Ad esempio, per l'esponenziale, si potrebbe usare l'osservazione più piccola (diciamo che è uguale a ) per avere un'idea molto approssimativa di dove posizionare i bin (poiché l'osservazione più piccola è esponenziale con media ), e quindi prova le rimanenti differenze ( ) per esponenzialità. Naturalmente ciò potrebbe produrre una stima molto scadente di , e quindi delle scelte sbagliate di bin, anche se suppongo che si possa usare l'argomento in modo ricorsivo per prendere le due o tre osservazioni più basse da cui scegliere i bin ragionevoli e quindi testare le differenze di le restanti osservazioni sopra la più grande di quelle statistiche di ordine più piccolo per esponenzialità)