Un esempio in cui il principio di verosimiglianza * conta davvero *?


20

Esiste un esempio in cui due diversi test difendibili con probabilità proporzionali porterebbero a inferenze marcatamente diverse (e ugualmente difendibili), per esempio, dove i valori p sono di ordine di grandezza molto distanti, ma il potere delle alternative è simile?

Tutti gli esempi che vedo sono molto sciocchi, confrontando un binomio con un binomio negativo, in cui il valore p del primo è del 7% e del secondo 3%, che sono "diversi" solo se si prendono decisioni binarie su soglie arbitrarie di significato come il 5% (che, tra l'altro, è uno standard piuttosto basso per l'inferenza) e non si preoccupano nemmeno di guardare al potere. Se cambio la soglia per l'1%, ad esempio, entrambi portano alla stessa conclusione.

Non ho mai visto un esempio in cui porterebbe a inferenze marcatamente diverse e difendibili . C'è un esempio del genere?

Lo sto chiedendo perché ho visto così tanto inchiostro speso su questo argomento, come se il principio di verosimiglianza sia qualcosa di fondamentale nelle basi dell'inferenza statistica. Ma se il miglior esempio che uno ha sono esempi sciocchi come quello sopra, il principio sembra completamente insignificante.

Quindi, sto cercando un esempio molto convincente, in cui se uno non segue l'LP il peso dell'evidenza punterebbe in modo schiacciante in una direzione dato un test, ma, in un test diverso con probabilità proporzionale, il peso dell'evidenza sarebbe puntare in modo schiacciante in una direzione opposta, ed entrambe le conclusioni sembrano sensate.

Idealmente, si potrebbe dimostrare che possiamo avere risposte arbitrariamente distanti, ma sensate, come i test con contro con probabilità proporzionali e potenza equivalente per rilevare la stessa alternativa.p=0.1p=1010

PS: la risposta di Bruce non affronta affatto la domanda.


5
Quando si eseguono test di significatività, si può sempre cambiare la decisione cambiando la soglia. Potresti quindi spiegare cosa intendi con "marcatamente", "sciocco" o "irresistibile"? A proposito, sembra che tu stia leggendo l' articolo di Wikipedia .
whuber

2
Benvenuto in CV, @statslearner. Puoi fare un esempio di uno o più approcci specifici all'inferenza che non usano il principio di verosimiglianza che vorresti vedere contrastato?
Alexis,

1
Idealmente @whuber Vorrei vedere che puoi costruire risposte arbitrariamente diverse come, se vuoi usare valori p, qualcosa come contro , ed entrambi i calcoli sembrerebbero comunque difendibili. p = 10 - 5p=0.5p=105
statslearner2,

3
Non posso seguire quel commento perché non ha senso. Indipendentemente da ciò, hai mai considerato di cambiare i numeri forniti nell'esempio di Wikipedia? p=105
whuber

6
La differenza significativa con le implicazioni pratiche è l'elaborazione delle regole di arresto: sotto il LP non contano, al di fuori del LP lo fanno. Controlla Berger & Wolpert (1987) per i dettagli.
Xi'an,

Risposte:


7

Pensa a una situazione ipotetica in cui un'ipotesi nulla è vera ma si continua a campionare fino a (questo accadrà sempre prima o poi, cioè accadrà con probabilità 1) e quindi si decide di interrompere il processo e rifiutare il nulla. Questa è una regola di arresto estremo, ma considerala per il bene dell'argomento.p<0.05

Questa procedura idiota avrà un tasso di errore del 100% di tipo I, ma non vi è nulla di sbagliato in base al principio di verosimiglianza.

Direi che conta come "davvero" importante. Ovviamente puoi scegliere qualsiasi in questo argomento. I bayesiani possono usare un cut-off fisso sul fattore Bayes se lo desiderano. Si applica la stessa logica. La lezione principale qui è che non puoi aderire a LP e avere una garanzia del tasso di errore. Non c'è pranzo libero.α


4
Stavo pensando anche a questo esempio. Ma non l'ho menzionato perché è davvero idiota. Ma in realtà, è ciò che accade nella pratica indirettamente e informalmente.
Sesto Empirico

1
Quali sono le 2 statistiche e la loro probabilità nel tuo esempio? Nel neg. caso binomiale vs binomiale abbiamo: 1) statistiche 1, numero di prove fino a 3 teste, probabilità neg binomiale; 2) statistiche 2, numero di capi in n prove, binomail similitudine. Nel tuo esempio, non vedo quali sono le due statistiche e se hanno probabilità proporzionali.
statslearner2

1
Nel tuo esempio probabilmente sarebbe "numero di prove fino a p <0,05" di cui non dubito quasi che sia proporzionale al binomio, quindi non sono sicuro che il tuo esempio sia valido, Amoeba.
statslearner2

1
Non credo che il principio di verosimiglianza reciti "non c'è nulla di sbagliato in questo". Il principio di probabilità filtra le cattive procedure. Il fatto che la procedura non rispetti il ​​principio di verosimiglianza non è la stessa in quanto approvata dal principio di verosimiglianza. Un'analisi bayesiana di questo problema di test sequenziale, che ovviamente obbedisce al principio di verosimiglianza, ha proprietà perfettamente fini, perché non implementerà la procedura "idiota" che descrivi.
ragazzo,

3
@amoeba considera sotto l'alternativa o sotto il nulla, con . È facile dimostrare che il log del fattore Bayes è approssimativamente dove è la normale statistica del testRifiutare quando il fattore Bayes è maggiore di equivale quindi a rifiutare quando . Sotto il valore nullo, ciò non è garantito nell'impostazione del test sequenziale (cfr. La legge del logaritmo iterato); quindi, la procedura bayesiana non sarà vittima del problema che hai descritto. θ = 0 Y iN ( θ , 1 ) 1θN(0,τ1)θ=0YiN(θ,1)ZnZ1| Zn| >O(12[log(τ/n)+Zn2]ZnZ1|Zn|>O(logn)
ragazzo

4

Disclaimer: credo che questa risposta sia al centro dell'intero argomento, quindi vale la pena di discuterne, ma non ho esplorato completamente il problema. In quanto tale, accolgo con favore correzioni, perfezionamenti e commenti.

L'aspetto più importante riguarda i dati raccolti in sequenza. Ad esempio, supponi di aver osservato risultati binari e di aver visto 10 successi e 5 fallimenti. Il principio di probabilità dice che dovresti giungere alla stessa conclusione sulla probabilità di successo, indipendentemente dal fatto che tu abbia raccolto dati fino a quando non hai avuto 10 successi (binomio negativo) o eseguito 15 prove, di cui 10 erano successi (binomiale) .

Perché questo è di qualche importanza?

Perché secondo il principio di verosimiglianza (o almeno una certa interpretazione di esso), è del tutto corretto lasciare che i dati influenzino quando si intende interrompere la raccolta dei dati, senza dover modificare gli strumenti di inferenza.

Conflitto con metodi sequenziali

L'idea che l'utilizzo dei dati per decidere quando interrompere la raccolta di dati senza alterare gli strumenti inferenziali, si scontri completamente con i tradizionali metodi di analisi sequenziale. Il classico esempio di questo è con i metodi utilizzati negli studi clinici. Al fine di ridurre la potenziale esposizione a trattamenti dannosi, i dati vengono spesso analizzati a intervalli intermedi prima di eseguire l'analisi. Se lo studio non è ancora terminato, ma i ricercatori dispongono già di dati sufficienti per concludere che il trattamento funziona o è dannoso, l'etica medica ci dice che dovremmo interrompere lo studio; se il trattamento funziona, è etico interrompere la sperimentazione e iniziare a rendere il trattamento disponibile per i pazienti non sperimentali. Se è dannoso, è più etico smettere di smettere di esporre i pazienti in prova a un trattamento dannoso.

Il problema è ora che abbiamo iniziato a fare più confronti, quindi abbiamo aumentato il nostro tasso di errore di tipo I se non adeguiamo i nostri metodi per tenere conto dei confronti multipli. Questo non è esattamente lo stesso dei tradizionali problemi di confronto multiplo, in quanto si tratta in realtà di paragoni parziali multipli (vale a dire, se analizziamo i dati una volta con il 50% dei dati raccolti e una volta con il 100%, questi due campioni chiaramente non sono indipendenti!) , ma in generale più confronti facciamo, più abbiamo bisogno di cambiare i nostri criteri per rifiutare l'ipotesi nulla per preservare il tasso di errore di tipo I, con più confronti pianificati che richiedono più prove per rifiutare il nulla.

Ciò pone i ricercatori clinici in un dilemma; vuoi controllare frequentemente i tuoi dati, ma poi aumentare le prove richieste per rifiutare il null, o vuoi controllare raramente i tuoi dati, aumentando il tuo potere ma potenzialmente non agendo in modo ottimale per quanto riguarda l'etica medica (ad esempio, può ritardare la commercializzazione del prodotto o esporre i pazienti inutilmente a trattamenti dannosi).

È mia comprensione (forse errata) che il principio di probabilità sembra dirci che non importa quante volte controlliamo i dati, dovremmo fare la stessa deduzione. Questo in sostanza dice che tutti gli approcci alla progettazione di prove sequenziali sono completamente inutili; basta usare il principio di verosimiglianza e fermarsi dopo aver raccolto abbastanza dati per trarre una conclusione. Poiché non è necessario modificare i metodi di inferenza per adattarsi al numero di analisi preparate, non vi è alcun compromesso tra il numero di volte verificate e la potenza. Bam, l'intero campo dell'analisi sequenziale è risolto (secondo questa interpretazione).

Personalmente, ciò che mi confonde molto è che un fatto che è ben noto nel campo del design sequenziale, ma abbastanza sottile, è che la probabilità della statistica finale del test è ampiamente modificata dalla regola di arresto; sostanzialmente, le regole di arresto aumentano la probabilità in modo discontinuo nei punti di arresto. Ecco una trama di tale distorsione; la linea tratteggiata è il PDF della statistica test finale sotto il valore null se i dati vengono analizzati solo dopo che tutti i dati sono stati raccolti, mentre la linea continua fornisce la distribuzione sotto il valore null della statistica test se si controllano i dati 4 volte con un dato regola.

Detto questo, capisco che il principio di probabilità sembra implicare che possiamo buttare via tutto ciò che sappiamo sulla progettazione sequenziale di Frequentist e dimenticare quante volte analizziamo i nostri dati. Chiaramente, le implicazioni di ciò, specialmente per il campo dei progetti clinici, sono enormi. Tuttavia, non ho riflettuto sul modo in cui giustificano ignorare il modo in cui le regole di arresto alterano la probabilità della statistica finale.

Alcune discussioni leggere possono essere trovate qui , principalmente nelle diapositive finali.


2
+1. Trovo concettualmente più semplice pensare a una situazione ipotetica in cui l'ipotesi nulla è vera, ma si continua a campionare fino a (questo muro si verifica sempre prima o poi, cioè accadrà con probabilità 1) e quindi si decide di interrompere il processo. Questa procedura idiota avrà un tasso di errore di tipo I del 100%, sebbene sia conforme all'LP. p<0.05
ameba dice Ripristina Monica il

@amoeba: sono d'accordo che il tuo esempio è piuttosto semplice (+1). L'obiettivo della mia risposta è quello di sottolineare perché c'è persino una discussione. Penso che la risposta sia che se le implicazioni e le interpretazioni del LP fossero corrette, significherebbe che gli studi clinici non dovrebbero più scegliere tra il potere massimo e l'esposizione non necessaria, il che sarebbe un guadagno assolutamente enorme. In generale, libererebbe anche i ricercatori dalla necessità di indovinare in anticipo la dimensione del campione, il che migliora notevolmente l'utilità dei test statistici.
Cliff AB,

Bene, penso che l'intero quadro dei test per i frequentisti sia incompatibile con l'LP, ed è proprio così. Uno usa il test del frequentista se vuole una garanzia sui tassi di errore. Si scopre che ciò non è coerente con LP. Vedi anche il paradosso di Lindley e tutto il resto. Bene, duro. Ero entusiasta di queste cose, ma ora non lo sono più. Non c'è pranzo libero; bisogna fare alcune scelte. Nota che molte procedure bayesiane violano anche LP .
ameba dice Ripristina Monica il

"la probabilità della statistica del test finale è in gran parte modificata dalla regola di arresto" Il pdf è cambiato, e anche la probabilità (ma solo da una costante), ma si può ancora finire con funzioni di probabilità che sono le stesse fino a un costante di proporzionalità. Ad esempio, la distribuzione binomiale e la distribuzione binomiale negativa per successi e trial hanno entrambe una probabilità che è proporzionale an L ( p | n , k ) p k p n - kknL(p|n,k)pkpnk
Sextus Empiricus

3

Cenni ai test LR per dati esponenziali.

Consenti a essere un campione casuale da modo che Per la funzione di densità è e il CDF èX1,X2,,XnExp(rate=λ),E(Xi)=μ=1/λ.x>0,f(x)=λeλxF(x)=1eλx.

1. La statistica del test è il minimo del campione.

SiaQuindi Come contorno della dimostrazione, modo che perV=X(1)=minn(Xi).VExp(nλ).

P(V>v)=P(X1>v,,Xn>v)=[eλv]n=enλv,
P(Vv)=1enλv,v>0.

Per testare contro a livello consideriamo come una singola osservazione dalla sua distribuzione esponenziale. Troviamo che il rapporto di verosimiglianza log indica il rifiuto quando dove H9:μμ0Ha:μ>μ0,α=5%,VV>c,P(V>c|μ=μ0)=0.05.

Per il caso specifico in cui e abbiamo un tasso esponenziale modo che da R, dove l'esponenziale la distribuzione è parametrizzata dal tasso.n=100μ0=10,λ0=0.1,10=n/μ0=100/10=10,c=0.2295

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

Di conseguenza, il potere contro l'alternativa (rate è di circa il 74%.μa=100n/μa=1)

1 - pexp(0.2996, 1)
[1] 0.7411146

2. La statistica del test è la media del campione.

Le note della classe Oxford U. (seconda pagina) mostrano che il test del rapporto di verosimiglianza di contro al livello di significatività del 5% rifiuta per dove Inoltre, si può mostrare usando le funzioni di generazione del momento che H0:μμ0H0:μ>μ0X¯>c,P(X¯>c|μ=μ0)=0.5.X¯Gamma(n,nλ).

Per il caso specifico in cui e abbiamo quindin=100μ0=10,λ0=0.1,X¯Gamma(100,10),c=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

Di conseguenza, il potere contro l'alternativa è di circa il 95,6%.μa=14

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

Chiaramente, ai fini del test delle ipotesi sulla media esponenziale le informazioni nella statistica sufficiente sono molto maggiori delle informazioni nel minimo del campione.μ,X¯


Non penso che questo affronti la domanda. Le due probabilità sono proporzionali? Devi prima dimostrare che la probabilità che i due esperimenti siano proporzionali, altrimenti il ​​principio di probabilità non si applica. Secondo, in questo esempio i due test portano alla stessa conclusione, quindi è ancora più deludente dell'esempio del binomio contro il binomio negativo.
statslearner2

Ho appena controllato il documento, le probabilità non sono proporzionali, poiché la prima probabilità ha nell'esponente e l'altra ha , quindi il principio di probabilità non dovrebbe applicarsi qui, va bene che i due test conducano a conclusioni diverse secondo al principio di verosimiglianza. x ivxi
statslearner2,

2
Bruce, solo per chiarire cosa afferma il principio di verosimiglianza: dice che se hai due esperimenti in cui le verosimiglianze differiscono solo per una costante, allora dovresti trarne la stessa conclusione. Ciò accade nel caso binomiale rispetto al caso binomiale negativo, dove differiscono solo nella parte del coefficiente binomiale (costante). Il tuo esempio mostra due test in cui le loro probabilità non differiscono solo per una costante, quindi l'LP non si applica.
statslearner2,

@ statslearner2 la funzione di probabilità di osservare un campione è: Questo è lo stesso se si seleziona il minimo o la media come criterio per eseguire il test. La violazione che si verifica qui può essere vista come il tipo in cui la definizione di "casi estremi" è diversa e l'integrazione per calcolare il valore p è fatta in modo diverso. x1,...,xn
f(x1,...,xn)=i=1nλeλxi
Sesto Empirico

3

Violazione da parte di diverse funzioni pdf ef(x,θ)g(x,θ)

Questo caso sarà un esempio di "violazione" perché le funzioni di distribuzione di probabilità sono intrinsecamente diverse. Anche quando e differiscono, possono essere correlati al principio di verosimiglianza perché a misura fissa forniscono le stesse funzioni di fino al ridimensionamento. La differenza, apre la possibilità di "violazioni".f(x,θ) g(x,θ)fgxθ


Il lancio della moneta con o senza la regola di arresto opzionale

Il lancio della moneta con o senza la regola di arresto opzionale è un tipico esempio, il pdf è binomiale o binomiale negativo che sono diverse funzioni pdf e portano a un diverso calcolo dei valori p e degli intervalli di confidenza, ma portano alle stesse funzioni di probabilità per fissi campione / misurazione (fino al ridimensionamento).

fNegative Binomial(n|k,p)=(n1k1)pk(1p)nkfBinomial(k|n,p)=(nk)pk(1p)nk


Esempio più estremo

Considera alcune misure di che è distribuita comeX

L(θ|x)=f(x|θ)={0 if x<0a if 0x<1(1a)θexp(θ(x1)) if x1

dove è un parametro noto che dipende dal tipo di esperimento e è un parametro che potrebbe essere sconosciuto e potrebbe essere dedotto dalla misurazione .aθx

Per ogni dato e funzione la probabilità è proporzionale alla stessa funzione indipendente da :xaa

  • Se allorax<1L(θ|x)1
  • Se allorax1L(θ|x)θexp(θ(x1))

Ma, sebbene con la stessa funzione di probabilità, il valore p può variare ampiamente a seconda dell'esperimento (cioè il valore di ). Ad esempio, quando si misura e si verifica rispetto a il valore p èax=2H0:θ=1H0:θ<1

P(X>2|θ=1)=(1a)exp(1)


Intuizione: il motivo della violazione in questi casi è che i valori p e i test di ipotesi non si basano esclusivamente sulla funzione di probabilità per il particolare valore osservato .x

Il valore p non viene calcolato dalla probabilità con fisso, ma con il pdf con fisso che è una porzione diversa. Gli intervalli di confidenza, il valore p e i test di ipotesi sono cose diverse rispetto alle informazioni dei rapporti di verosimiglianza.f(θ|x)xf(x|θ)θ

I valori di p non sono realmente una prova: il valore di p si riferisce all'errore di tipo I che è una misura che si riferisce a un insieme di misurazioni piuttosto che a una singola misurazione. Questo errore di tipo I o valore p non è lo stesso del "significato probatorio" delle basi delle prove statistiche di Birnbaums. Ciò si collega molto ai problemi con i valori di p e lo scienziato che cerca risultati solo con significato statistico piuttosto che con effetti importanti.

Abbiamo bisogno di esempi in cui le inferenze sono notevolmente diverse? Il caso estremo è un esempio inventato. Un caso del genere, o qualcosa con una differenza estrema simile, ovviamente non si verifica facilmente nella pratica. Più spesso accade che la differenza sarà minima, come nei casi a cui si fa riferimento come sciocchi.

Chiedere esempi in cui il principio di verosimiglianza "conta davvero", o in cui due inferenze diverse portano a risultati estremamente diversi, è un po 'una domanda carica . Almeno quando l'intenzione per questa domanda si riferisce a qualche argomento filosofico. È una domanda carica perché presuppone che i principi che contano dovrebbero portare a risultati estremamente diversi. In molti casi pratici i risultati sono comunque piccoli (in termini di diversi valori di p inferiori a un ordine). Credo che questo non sia strano per due metodi diversi, ma entrambi plausibili, per ottenere risultati più o meno simili. Considererei il principio di probabilità non "meno violato" quando le differenze sono solo piccole.


Per quanto riguarda il caso 1: penso che la scelta di una diversa statistica di test possa (dovrebbe?) Essere vista come una modifica della funzione di probabilità.
ameba dice di reintegrare Monica il

2
@MartijnWeterings sì, sta scegliendo una diversa statistica di test, ciò che conta è la probabilità delle statistiche, non dei dati. Altrimenti posso prendere una sequenza di 100 lanci e calcolare diverse statistiche: numero di corse di teste, numero di alternanze di teste e code. Niente di tutto ciò viola l'LP.
statslearner2

Devi scegliere due statistiche che avranno probabilità proporzionali, come il numero di prove fino a 3 successi o il numero di successi in n prove ecc.
statslearner2

1

Ecco un esempio adattato dalla teoria della decisione statistica e dall'analisi bayesiana di James O. Berger (Seconda edizione pagina 29).

Supponi che due specie di vespe possano essere distinte dal numero di tacche sulle ali (chiama questa ) e dal numero di anelli neri attorno all'addome (chiama questa ). La distribuzione dei personaggi nelle due specie (etichettati e ) è la seguente:xyH0H1

Tabella adattata dalla teoria della decisione statistica e dall'analisi bayesiana di James O. Berger.

Supponiamo di trovare un esemplare con 1 tacca sulle ali e 1 anello attorno all'addome. Il peso delle prove se 100 volte più grande a favore di contro per entrambi i personaggi.H1H0

Ora, se qualcuno volesse impostare un test per al livello del 5%, la regola di decisione sarebbe per il primo personaggio "accetta se sull'ala c'è 1 tacca, altrimenti respingilo", e per il secondo carattere "accetta se ci sono 3 anelli attorno all'addome, altrimenti rifiutalo ”. Ci sono molte altre possibilità, ma queste sono le prove più potenti a questo livello. Tuttavia, portano a conclusioni diverse per entrambi i personaggi.H0H0H0


Nota : si potrebbe ovviamente impostare un test con la regola "accettare se ci sono 1 o 3 anelli attorno all'addome, altrimenti rifiutarlo". La domanda è se preferiamo un test al 5% con rischio di tipo II 0 o un test al 4,9% con rischio di tipo II 0,00001. La differenza è così piccola che probabilmente non ci importerebbe, ma a quanto ho capito, questo è il nocciolo dell'argomento per il principio di verosimiglianza: non è una buona idea far dipendere il risultato da qualcosa che sembra irrilevante.H0


Le funzioni di probabilità sono proporzionali, eppure il valore p di è 0,95, e quello di è 0,001 (supponendo che rifiutiamo con eventi nella forma ). Dalla struttura della tabella è ovvio che avrei potuto scegliere qualsiasi numero inferiore a 0,001. Inoltre, il rischio di tipo II del rifiuto è 0, quindi sembra che qui non ci sia nulla di "sbagliato".x=1y=1H0yα

Tuttavia, ammetto che questo esempio è in qualche modo inventato e non del tutto onesto perché gioca con la difficoltà di organizzare i test con dati discreti. Si potrebbero trovare esempi equivalenti con dati continui, ma sarebbero ancora più elaborati. Concordo con il PO che il principio di probabilità non ha quasi alcun valore pratico; Lo interpreto come un principio per garantire una certa coerenza all'interno della teoria.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.