Test di bontà di adattamento: domanda sul test Anderson – Darling e criterio di Cramér – von Mises


10

Sto leggendo le pagine Web per la bontà dei test di idoneità, quando sono arrivato al test Anderson – Darling e al criterio Cramér – von Mises .

Finora ho capito il punto; sembra che il test Anderson – Darling e il criterio Cramér – von Mises siano simili, basandosi solo su una diversa funzione di ponderazione . Inoltre c'è una variante del criterio di Cramér – von Mises chiamato test di Watson .w

Fondamentalmente ho due domande qui

  1. Non ci sono molti risultati di Google su questi due metodi; sono ancora all'avanguardia? o sostituito da alcuni approcci migliori già?

    È un po 'una sorpresa, poiché secondo questo articolo sui confronti di potenza tra i test di Shapiro – Wilk, Kolmogorov – Smirnov, Lilliefors e Anderson-Darling , AD si sta comportando abbastanza bene; sempre meglio di Lilliefors e KS e molto vicino al test SW, che è specificamente progettato per la distribuzione normale.

  2. Qual è l'intervallo di confidenza per tali test?

    Per i test AD, CM e Watson, ho visto la variabile delle statistiche dei test definita nelle pagine wiki, ma non ho trovato l'intervallo di confidenza.

    Le cose sono solo più semplice per il test KS: sulla pagina wiki , l'intervallo di confidenza è definito da , che è definita dalla funzione di distribuzione cumulativa di . KKαK

Risposte:


4

Non può esistere un unico stato dell'arte per la bontà di adattamento (ad esempio non esiste alcun test UMP su alternative generali e in realtà non si avvicina nemmeno nulla - anche i test omnibus molto apprezzati hanno un potere terribile in alcune situazioni).

In generale, quando si seleziona una statistica di prova, si sceglie il tipo di deviazione che è più importante rilevare e utilizzare una statistica di prova adatta a quel lavoro. Alcuni test funzionano molto bene con una vasta gamma di alternative interessanti, rendendole scelte decenti di default, ma ciò non li rende "all'avanguardia".

L'Anderson Darling è ancora molto popolare e con buone ragioni. Il test di Cramer-von Mises è molto meno utilizzato in questi giorni (con mia grande sorpresa perché di solito è migliore del Kolmogorov-Smirnov, ma più semplice dell'Anderson-Darling - e spesso ha un potere migliore di quello sulle differenze "nel mezzo" di la distribuzione)

Tutti questi test soffrono di parzialità rispetto ad alcuni tipi di alternative, ed è facile trovare casi in cui l'Anderson-Darling fa molto peggio (terribilmente, davvero) rispetto agli altri test. (Come suggerisco, è più 'cavalli per corsi' che un test per dominarli tutti). Spesso si presta poca attenzione a questo problema (cosa c'è di meglio nel raccogliere le deviazioni che contano di più per me?), Sfortunatamente.

Potresti trovare del valore in alcuni di questi post:

Shapiro-Wilk è il miglior test di normalità? Perché potrebbe essere migliore di altri test come Anderson-Darling?

2 Esempi di Kolmogorov-Smirnov contro Anderson-Darling vs Cramer-von-Mises (circa due campioni di test ma molte affermazioni vengono riportate

Motivazione della distanza di Kolmogorov tra le distribuzioni (discussione più teorica ma ci sono diversi punti importanti sulle implicazioni pratiche)


Non credo che sarai in grado di formare un intervallo di confidenza per il cdf nelle statistiche di Cramer-von Mises e Anderson Darline, perché i criteri si basano su tutte le deviazioni piuttosto che solo sul più grande.


Ho preso "stato dell'arte" per significare qualcosa che trova un uso non obsoleto. L'esistenza di più definizioni di bontà di adattamento dovrebbe segnalarci che la bontà di adattamento non è un singolo concetto. Considera che "buono" dipende dal "perché" stiamo eseguendo la regressione. Supponiamo che stiamo adattando il Modello A ai dati B per ottenere il miglior predittore dell'effetto C. Quindi "buono" è il miglior predittore di C non B. Tuttavia, molto spesso la domanda su come differiscono B e C viene ignorata.
Carl,

1
@Carl potresti voler controllare un dizionario (o wikipedia) su quale stato dell'arte significhi di solito - la tua interpretazione della frase non è il modo in cui la maggior parte delle persone legge la frase. I dizionari dicono cose come questa: " la fase più recente dello sviluppo, che incorpora le idee più recenti " e " il più alto livello di sviluppo in un dato momento " e " all'avanguardia, utilizzando le ultime tecnologie ". In questo contesto - test di bontà di adattamento - la frase implica "il meglio che possiamo fare ora". Insisto che non è qualcosa che puoi davvero dire su ogni singolo test. ... ctd
Glen_b -Reinstate Monica

2
... ad esempio, possiamo affermare che test popolari come lo Shapiro-Wilk (sebbene molto popolare nel testare la normalità) hanno concorrenti con un potere ampiamente migliore (ad esempio vedere Shapiro e Chen 1995) - ma non in ogni situazione. Non esiste una scelta migliore per il test (e quindi non esiste un vero "stato dell'arte"). Certamente sono d'accordo che ciò che è meglio (stato dell'arte) dipende dalle circostanze --- questo è il punto della mia risposta; le possibili risposte sono una miriade: qualcosa di buono in una situazione può essere molto scarso in un'altra. Vale la pena sapere quando i test si comportano bene piuttosto che chiedere "cosa è meglio" come se fosse una cosa sola.
Glen_b

È vero, la tua definizione è più corretta. Tuttavia, ci sono molti più metodi che prove di metodi, e lo "stato dell'arte" è in gran parte finzione, vale a dire che "l'arte" non ha "stato" tutto ciò che ha sono protagonisti. Ogni risposta a un tale nebuloso posit è equivoca. Ho detto "sì" e tu hai detto "no" ed entrambi abbiamo detto la stessa cosa.
Carl

A proposito, la domanda era "stato dell'arte" o "rimpiazzato" che ho assunto per significare "obsoleto o non obsoleto". Quindi c'era un contesto per la mia risposta, il cui contesto era "Per favore, supponi che" stato dell'arte "e" rimpiazzare "siano contrari, e per favore scegline uno." Hai ragione sul fatto che quelli non sono contrari, stavo rispondendo nel contesto e hai scelto di porre la domanda. Quindi, la mia è stata la risposta educata. E voterò per la tua risposta, perché la ritengo istruttiva, se non eccessivamente educata.
Carl

2

Il test Anderson-Darling non è disponibile su tutte le distribuzioni ma ha una potenza che è buona e vicina alla potenza per il test Shapiro-Wilk tranne che per un piccolo numero di campioni in modo che i due siano equivalenti a Razali NM, Wah YB. Confronti di potenza tra i test di Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors e Anderson-Darling. Journal of Statistical Modeling and Analytics. 2011; 2: 21-33. Tuttavia, il test Shapiro-Wilk è solo per i normali test di distribuzione. Il test di Cramér – von Mises e il Chi-quadrato di Pearson sono generali per tutti gli adattamenti di distribuzione agli istogrammi e penso che il test di Cramér – von Mises abbia più potere del Chi-quadrato di Pearson. Il test di Cramér – von Misesn=400 è un test di bontà di adattamento della funzione di densità cumulativa più potente rispetto al test di Kolmogorov-Smirnov e può avere una potenza maggiore o minore dei test a T. Il Chi-quadrato ha difficoltà con conteggi di celle basse, quindi le restrizioni di portata vengono utilizzate per adattare le code.

** Domanda 1: ... sono ... questi due metodi ... ancora all'avanguardia? o sostituito da alcuni approcci migliori già? Domanda 2 Qual è l'intervallo di confidenza per tali test? **

Risposta: sono all'avanguardia. Tuttavia, a volte vogliamo intervalli di confidenza non probabilità. Quando confrontiamo questi metodi tra noi parliamo di potere piuttosto che di intervalli di confidenza. A volte la bontà di adattamento viene analizzata utilizzando AIC, BIC e altri criteri in contrasto con le probabilità di un buon adattamento, e talvolta il criterio di bontà di adattamento è irrilevante, ad esempio, quando la bontà di adattamento non è il criterio per l'adattamento . In quest'ultimo caso, il nostro obiettivo di regressione può essere una quantità fisica non correlata all'adattamento, ad esempio vedere Tk-GV .


NB Il test Anderson-Darling è una versione ponderata del test Cramer-von Mises; e, come esso, adatto a qualsiasi distribuzione continua.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.