Test di ipotesi di distribuzione - che senso ha farlo se non si riesce ad "accettare" la propria ipotesi nulla?


26

Vari test di ipotesi, come il test GOF, Kolmogorov-Smirnov, Anderson-Darling, ecc., Seguono questo formato di base:χ2

H0 : i dati seguono la distribuzione data.

H1 : i dati non seguono la distribuzione fornita.

In genere, si valuta l'affermazione secondo cui alcuni dati dati seguono una determinata distribuzione e se si rifiuta , i dati non sono adatti per la distribuzione data a un certo livello . αH0α

E se non ? Mi è sempre stato insegnato che non si può "accettare" , quindi sostanzialmente non si prova a rifiutare . Cioè, non ci sono prove che rifiutiamo che i dati seguano la distribuzione data.H 0 H 0H0H0H0

Quindi, la mia domanda è: a che serve eseguire tali test se non possiamo concludere se i dati seguono o meno una determinata distribuzione?


1
È molto allettante rispondere solo "a che serve testare [in generale] se non si può accettare l'ipotesi nulla?". In tutti i casi, i test statistici non sono l'unica base del processo decisionale. Piuttosto, prendiamo una decisione e utilizziamo i dati per quantificare il rischio / costo degli errori di tipo I / II. Se avessimo semplicemente riassunto la qualità o il grado di adattamento con grafici utili, QQplot e statistiche predittive, saremmo debitamente avvisati del rischio di "accettare il nulla".
AdamO

@AdamO Quando l'ho chiesto tre anni fa, avevo appena finito un corso di laurea in matematica (enfasi sulle statistiche). Ora che sono a metà strada con un programma di statistiche sulla SM e dopo aver svolto un lavoro professionale, lo capisco ora. È davvero spiacevole come le statistiche vengano insegnate in molti programmi universitari, ma sto divagando.
Clarinetist,

Risposte:


37

In linea di massima (non solo nella bontà del test di adattamento, ma in molte altre situazioni), semplicemente non si può concludere che il valore nullo sia vero, perché esistono alternative effettivamente indistinguibili dal valore nullo per ogni data dimensione del campione.

Ecco due distribuzioni, una normale standard (linea continua verde) e una simile (90% standard normale e 10% beta standardizzata (2,2), contrassegnata da una linea tratteggiata rossa):

inserisci qui la descrizione dell'immagine

Quello rosso non è normale. Ad esempio , abbiamo poche possibilità di individuare la differenza, quindi non possiamo affermare che i dati siano estratti da una distribuzione normale - cosa succede se provenissero invece da una distribuzione non normale come quella rossa?n=100

Frazioni più piccole di beta standardizzati con parametri uguali ma più grandi sarebbero molto più difficili da vedere come diverse da una normale.

Ma dato che i dati reali non provengono quasi mai da una semplice distribuzione, se avessimo un oracolo perfetto (o dimensioni del campione effettivamente infinite), essenzialmente rifiuteremmo sempre l'ipotesi che i dati provenissero da una semplice forma distributiva.

Come affermava George Box , " Tutti i modelli sono sbagliati, ma alcuni sono utili " .

Considera, ad esempio, il test della normalità. Può darsi che i dati provengano effettivamente da qualcosa di simile a un normale, ma saranno mai esattamente normali? Probabilmente non lo sono mai.

Invece, il meglio che puoi sperare in quella forma di test è la situazione che descrivi. (Vedi, ad esempio, il post I test di normalità sono essenzialmente inutili?, Ma ci sono un numero di altri post qui che rendono punti correlati)

Questo è uno dei motivi per cui suggerisco spesso alle persone che la domanda a cui sono effettivamente interessati (che è spesso qualcosa di più vicino a "i miei dati sono abbastanza vicini alla distribuzione da poter fare deduzioni adeguate su quella base?") non ha ricevuto una buona risposta da test di bontà di adattamento. Nel caso della normalità, spesso le procedure inferenziali che desiderano applicare (t-test, regressione ecc.) Tendono a funzionare abbastanza bene in campioni di grandi dimensioni - spesso anche quando la distribuzione originale è abbastanza chiaramente non normale - proprio quando una bontà di molto probabilmente il test di idoneità rifiuterà la normalità . È poco utile avere una procedura che molto probabilmente ti dirà che i tuoi dati non sono normali proprio quando la domanda non ha importanza.F

Considera di nuovo l'immagine qui sopra. La distribuzione in rosso non è normale e con un campione molto grande potremmo rifiutare un test di normalità basato su un campione da esso ... ma con dimensioni del campione molto inferiori, regressioni e due test t per campioni (e molti altri test inoltre) si comporteranno così bene da rendere inutile anche solo preoccuparsi di quella non-normalità.

Considerazioni simili si estendono non solo ad altre distribuzioni, ma in gran parte a una grande quantità di test di ipotesi più in generale (anche un test a due code di per esempio). Si potrebbe anche porre lo stesso tipo di domanda: qual è lo scopo di eseguire tali test se non possiamo concludere se la media abbia o meno un valore particolare?μ=μ0

Potresti essere in grado di specificare alcune forme particolari di deviazione e guardare qualcosa come il test di equivalenza, ma è un po 'complicato con la bontà di adattamento perché ci sono molti modi per una distribuzione di essere vicini ma diversi da uno ipotizzato e diversi le forme di differenza possono avere impatti diversi sull'analisi. Se l'alternativa è una famiglia più ampia che include il null come caso speciale, il test di equivalenza ha più senso (test esponenziale contro gamma, per esempio) - e in effetti, l'approccio del "test unilaterale" porta avanti, e ciò potrebbe essere un modo per formalizzare "abbastanza vicino" (o sarebbe se il modello gamma fosse vero, ma in realtà sarebbe di per sé praticamente certo essere respinto da un normale test di bontà di adattamento,

La bontà dei test di adattamento (e spesso più in generale, dei test di ipotesi) è davvero adatta solo per una gamma abbastanza limitata di situazioni. La domanda a cui la gente di solito vuole rispondere non è così precisa, ma un po 'più vaga e più difficile da rispondere - ma come ha detto John Tukey, " Molto meglio una risposta approssimativa alla domanda giusta, che è spesso vaga, che una risposta esatta alla domanda sbagliata, che può essere sempre resa precisa " .

Approcci ragionevoli per rispondere alla domanda più vaga possono includere simulazioni e ricampionamenti delle indagini per valutare la sensibilità dell'analisi desiderata sull'ipotesi che si sta prendendo in considerazione, rispetto ad altre situazioni che sono anche ragionevolmente coerenti con i dati disponibili.

(Fa anche parte della base dell'approccio alla solidità tramite -contaminazione - essenzialmente osservando l'impatto dell'essere a una certa distanza nel senso di Kolmogorov-Smirnov)ε


Glen, questa è un'ottima risposta. Ci sono più risorse su "approcci ragionevoli per rispondere alla domanda più vaga"? Sarebbe bello vedere esempi funzionanti in cui le persone rispondono "i miei dati sono abbastanza vicini alla distribuzione X per i miei scopi?" nel contesto.
Stumpy Joe Pete,

2
@StumpyJoePete C'è un esempio di risposta a una domanda più vaga (ma leggermente diversa) qui , in cui la simulazione viene utilizzata per giudicare all'incirca quale tipo di dimensione del campione potrebbe essere ragionevole applicare un test t con inclinato (esponenziale, diciamo) dati. Quindi, in una domanda di follow-up, l'OP ha fornito ulteriori informazioni sul campione (era discreto e, a quanto pare, molto più inclinato di quanto suggerirebbe "esponenziale"), ... (ctd)
Glen_b -Reinstate Monica

2
(ctd) ... il problema è stato esplorato in modo più dettagliato , sempre usando la simulazione. Naturalmente, in pratica, ci deve essere più "avanti e indietro" per assicurarsi che sia adeguatamente adattato ai bisogni reali della persona, piuttosto che alla propria ipotesi dalla loro spiegazione iniziale.
Glen_b -Restate Monica

Grazie! Questo è esattamente il tipo di cosa che stavo cercando.
Stumpy Joe Pete,

17

Io secondo la risposta di @ Glen_b e aggiungo che in generale il problema "assenza di prove non è prova di assenza" fa test di ipotesi eP-valori meno utili di quanto sembri. La stima è spesso un approccio migliore anche nella valutazione della bontà di adattamento. Si può usare la distanza di Kolmogorov-Smirnov come misura. È difficile usarlo senza un margine di errore. Un approccio conservativo prenderebbe il limite di confidenza superiore della distanza KS per guidare la modellazione. Ciò porterebbe (correttamente) a molte incertezze, il che potrebbe indurre a concludere che sia preferibile scegliere un metodo solido. Con questo in mente, e tornando all'obiettivo originale, quando si confronta la distribuzione empirica con più di, per esempio, 2 possibili forme parametriche, la vera varianza della distribuzione adattata finale non ha una precisione migliore della funzione di distribuzione cumulativa empirica. Quindi, se non esiste una teoria della materia per guidare la selezione della distribuzione,


3
Non riesco a capire il motivo per cui questo è stato annullato; ci sono alcuni punti fantastici qui. Sarebbe utile se la persona che effettua il downvoting spiegasse ciò che percepisce essere il problema. Forse impareremmo qualcosa.
Glen_b

9

Un'opinione che ritengo condivisa dalla maggior parte delle persone è che il test delle ipotesi sia un adattamento probabilistico del principio di falsificazione .

Se un'ipotesi sopravvive a continui e seri tentativi di falsificazione, allora ha "dimostrato il suo coraggio" e può essere provvisoriamente accettata, ma non può mai essere stabilita in modo definitivo.

Pertanto, un fallimento nel rifiutare non implica affatto che sia vero; è solo che è sopravvissuto per un ulteriore controllo.H 0 H 0H0H0H0


2

Penso che questo sia un esempio perfetto per illustrare la differenza tra lavoro accademico e processo decisionale pratico. In contesti accademici (dove sono io), puoi discutere in qualsiasi modo tu voglia, purché sia ​​ritenuto ragionevole da altri. Quindi, in sostanza, finiamo per avere una discussione infinita, a volte circolare, argy l'uno con l'altro. In questo senso, questo fornisce alle persone qualcosa su cui lavorare.

Tuttavia, se sei davvero in grado di prendere effettivamente delle decisioni, allora la risposta è un sì o no definitivo. L'indecisione danneggerà la tua reputazione di decisore. Ovviamente, fare una scelta implica non solo statistiche ma a volte anche un elemento di gioco d'azzardo e salto di fiducia. In sintesi, questo tipo di esercizio è in qualche misura utile per il processo decisionale. Tuttavia, se basare la propria decisione esclusivamente su questo test di ipotesi è una storia completamente diversa.


2
Questo non è corretto IMHO. Il miglior libro che ho letto che spiega perché si prendono decisioni migliori incorporando sempre l'incertezza in ogni fase della decisione è The Signal and the Noise di Nate Silver . Ad esempio, i giocatori di poker più vincenti sono quelli che non credono mai che la probabilità di una certa mano sia 0 o 1.
Frank Harrell,

1
@FrankHarrell Mi chiedo come risponderesti a domande come se costruire una strada, se comprare una quota. È una domanda sì o no. Questi sono tipi di domande a cui i responsabili delle decisioni reali devono rispondere.
LaTeXFan,

1
@FrankHarrell Sicuramente le statistiche svolgono un ruolo nell'aiutare a prendere la decisione. Tuttavia, dal punto di vista della solidità, tutto ciò che stiamo facendo è approssimazione della realtà. Ci sono tonnellate di cose che la matematica semplicemente non può spiegare. Ed è qui che entrano in gioco altri mezzi come l'istinto.
LaTeXFan,

1
Esistono diversi tipi di decisioni. Alcuni sono irrevocabili. Alcuni sono quasi così, ad esempio, l'acquisto di un titolo ma guardandolo come un falco. Alcuni sono completamente reversibili. Prendere l'incertezza insieme a te consente di prendere decisioni migliori e correzioni rapide. A volte il miglior modo di agire è "nessuna decisione, ottenere più dati", che è esattamente ciò che R. Fisher ha raccomandato quando il valore è grande. Creare una decisione ferma e ferma usando punti di interruzione arbitrari dà solo l'illusione di fare la cosa giusta. Qui è dove teoria e pratica sono una cosa sola. P
Frank Harrell,

1
@FrankHarrell Grazie per i tuoi commenti. Penso che la tua distinzione tra decisioni irrevocabili e altrimenti sia un buon punto. In sostanza, si tratta della dimensione temporale del problema. Entro un breve periodo di tempo, la maggior parte delle decisioni sono irrevocabili. Questo è ciò che è accaduto quando le persone sono state messe sul posto per effettuare la chiamata. D'altra parte, se possiamo permetterci una visione a lungo termine, allora hai ragione: è meglio avere un sistema in grado di rispondere ai cambiamenti delle circostanze. Anche così, alcuni danni, sia finanziari che fisici, sono inevitabili.
LaTeXFan,

2

Il punto è che dal puro punto di vista statistico non puoi accettare , ma in pratica lo fai. Ad esempio, se si sta stimando il rischio di un portafoglio utilizzando valore a rischio o misure simili, la distribuzione del rendimento del portafoglio è piuttosto importante. Questo perché il rischio è definito dalla coda della tua distribuzione.

Nei casi di libri di testo, la normale distribuzione viene spesso utilizzata per esempi. Tuttavia, se i rendimenti del tuo portafoglio presentano code fatali (cosa che spesso fanno), la normale approssimazione della distribuzione sottostimerà i rischi. Pertanto, è importante esaminare i rendimenti e decidere se utilizzare o meno l'approssimazione normale. Nota, questo non significa necessariamente eseguire test statistici, potrebbe essere grafici QQ o altri mezzi. Tuttavia, è necessario prendere una decisione a un certo punto in base all'analisi dei resi e dei modelli di reso e utilizzare normalmente o no.

Quindi, per tutti gli scopi pratici, non rifiutare significa veramente accettare anche se non in senso statistico rigoroso. Accetterai il normale e lo utilizzerai nei tuoi calcoli, che verranno mostrati quotidianamente alla direzione superiore, ai tuoi regolatori, ai revisori dei conti, ecc. Il non rifiuto in questo caso ha conseguenze di vasta portata in tutti i sensi, quindi è come o più potente del risultato statico sciocco.


0

Nessun imputato in tribunale è mai innocente. Sono colpevoli (respingono l'ipotesi nulla di innocente) o non colpiscono (non rifiutano la presunzione di innocenza).

L'assenza di prove non è una prova di assenza.


-1

Quindi, la mia domanda è: a che serve eseguire tali test se non possiamo concludere se i dati seguono o meno una determinata distribuzione?

Se hai in mente una distribuzione alternativa (o un insieme di distribuzioni) da confrontare, allora può essere uno strumento utile.

Direi: ho una serie di osservazioni a portata di mano che penso possano essere normalmente distribuite. (Penso di sì perché ho visto osservazioni di un carattere simile che ero soddisfatto seguivano sensibilmente la curva normale.) Penso anche che potrebbero non seguire la curva normale ma una normale curva non normale. (Penso che ciò possa essere dovuto al fatto che ho visto corpi di dati come questo che non seguono la curva normale ma che, ad esempio, erano inclinati, ecc.) 3 Eseguo quindi un'indagine lungo le seguenti linee: Se le osservazioni provengono da una distribuzione normale, con quale frequenza si verificherebbe un tale chi-quadrato? La conclusione è "Molto raramente, solo due volte su cento". Quindi faccio una richiesta, non dichiarata e non calcolata, ma ritengo assolutamente necessario per il completamento di un argomento valido, come segue: Se la distribuzione non è normale, questa esperienza, giudicata da una differenza chi-quadro, si verificherebbe abbastanza frequentemente. (Tutto quello che devo fare è immaginare che la curva non normale abbia il carattere obliquo osservato della distribuzione.) Respingo pertanto l'ipotesi normale sul principio che accetto quella di ipotesi considerate alternative su cui l'evento sperimentato sarebbe più frequente. Dico che il rifiuto dell'ipotesi nulla è valido solo sulla volontà di accettare un'alternativa (questa alternativa non necessariamente definita precisamente sotto tutti gli aspetti). ) Respingo pertanto l'ipotesi normale sul principio secondo cui accetto quella di ipotesi considerate alternative su cui l'evento con esperienza sarebbe più frequente. Dico che il rifiuto dell'ipotesi nulla è valido solo sulla volontà di accettare un'alternativa (questa alternativa non necessariamente definita precisamente sotto tutti gli aspetti). ) Respingo pertanto l'ipotesi normale sul principio secondo cui accetto quella di ipotesi considerate alternative su cui l'evento con esperienza sarebbe più frequente. Dico che il rifiuto dell'ipotesi nulla è valido solo sulla volontà di accettare un'alternativa (questa alternativa non necessariamente definita precisamente sotto tutti gli aspetti).

Ora il ragionamento che ho descritto, in contrasto con quello che ho descritto come il più comune, spiegherebbe perché la mia decisione differisce da quella di routine nel terzo e nel quarto caso.

Per quanto riguarda il terzo caso, dopo aver provato il test del chi-quadro, sono giunto alla conclusione che, sulla base dell'ipotesi di nessuna differenza rispetto alla normalità, raramente si verificherebbe una distribuzione con un chi-quadrato così grande. Finora ci troviamo esattamente nella stessa posizione in cui eravamo a questo punto nel secondo caso. Ma ora lasciatemi esaminare la probabilità che questa esperienza si verifichi se l'offerta originale fosse normale e non normale. Questa esperienza si verificherebbe più frequentemente? Non c'è motivo di dirlo. La distribuzione è perfettamente simmetrica, cioè l'asimmetria è zero (c'erano esattamente il 50% dei casi su ciascun lato della media), e un esame superficiale delle differenze rispetto alle frequenze attese nelle diverse classi mostra che non sono sys- tematico, cioè le deviazioni più e le deviazioni meno si alternano in ordine casuale. Tale distribuzione non è prevedibile frequentemente da alcuna curva plausibile non normale. Non abbiamo quindi motivo di rifiutare la curva normale.

La mia opinione è che non vi è mai alcun motivo valido per rifiutare l'ipotesi nulla se non sulla volontà di abbracciarne una alternativa.

Alcune difficoltà di interpretazione incontrate nell'applicazione del test Chi-Square. Joseph Berkson. Giornale dell'American Statistical Association. Vol. 33, n. 203 (settembre 1938), pagg. 526-536


1
La citazione / carta di Berkson mi sembra pertinente e ragionevole. È noto che con una dimensione del campione sufficientemente grande qualsiasi distribuzione presunta verrà rifiutata, anche se solo a causa di un errore di misurazione. Se scopriamo che i dati sono improbabili sotto una certa distribuzione presunta, non dovremmo cercare di capire quale sarebbe una scelta migliore? E se non possiamo giustificare queste altre scelte, dovremmo assumere, se necessario, la distribuzione più semplice possibile? Qualcuno può spiegare perché questo è stato downvoted?
Livido
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.