Test di ipotesi e distanza di variazione totale rispetto alla divergenza di Kullback-Leibler


10

Nella mia ricerca ho riscontrato il seguente problema generale: ho due distribuzioni e sullo stesso dominio e un gran numero (ma finito) di campioni da tali distribuzioni. I campioni sono distribuiti in modo indipendente e identico da una di queste due distribuzioni (anche se le distribuzioni possono essere correlate: ad esempio, può essere una miscela di e qualche altra distribuzione.) L'ipotesi nulla è che i campioni provengano da , ipotesi alternativa è che campioni provengono da .PQQPPQ

Sto cercando di caratterizzare il tipo I e tipo II gli errori in fase di test del campione, conoscendo le distribuzioni e . In particolare, mi interessa in che delimita un errore dato l'altro, oltre alla conoscenza di e .PQPQ

Ho fatto una domanda su math.SE in merito alla relazione della distanza di variazione totale tra e e test di ipotesi e ho ricevuto una risposta che ho accettato. Questa risposta ha senso, ma non sono ancora stato in grado di avvolgere la mia mente attorno al significato più profondo dietro la relazione della distanza della variazione totale e il test delle ipotesi in relazione al mio problema. Quindi, ho deciso di passare a questo forum.PQ

La mia prima domanda è: la variazione totale è legata alla somma delle probabilità di errori di tipo I e di tipo II indipendentemente dal metodo di verifica delle ipotesi che si utilizza? In sostanza, fintanto che esiste una probabilità diversa da zero che il campione avrebbe potuto essere generato da una delle distribuzioni, la probabilità di almeno uno degli errori deve essere diversa da zero. Fondamentalmente, non puoi sfuggire alla possibilità che il tuo tester di ipotesi commetta un errore, indipendentemente dalla quantità di elaborazione del segnale che fai. E la variazione totale limita quella possibilità esatta. La mia comprensione è corretta?

Esiste anche un'altra relazione tra gli errori di tipo I e II e le distribuzioni di probabilità sottostanti e : la divergenza di KL . Quindi, la mia seconda domanda è: la divergenza di KL è applicabile solo a uno specifico metodo di test di ipotesi (sembra che si verifichi molto attorno al metodo del rapporto di verosimiglianza) o si può applicare generalmente in tutti i metodi di test di ipotesi? Se è applicabile a tutti i metodi di verifica delle ipotesi, allora perché sembra essere così molto diverso dal limite della variazione totale? Si comporta diversamente?QPQ

E la mia domanda di fondo è: c'è una serie prescritta di circostanze in cui dovrei usare uno dei due, o è semplicemente una questione di convenienza? Quando il risultato dovrebbe essere derivato usando una sospensione associata usando l'altra?

Mi scuso se queste domande sono banali. Sono uno scienziato informatico (quindi questo mi sembra un problema di abbinamento di schemi fantasiosi :).) Conosco abbastanza bene la teoria dell'informazione e ho anche una laurea in teoria delle probabilità. Tuttavia, sto appena iniziando a imparare tutte queste prove di ipotesi. Se necessario, farò del mio meglio per chiarire le mie domande.

Risposte:


8

Letteratura: la maggior parte delle risposte di cui hai bisogno sono certamente nel libro di Lehman e Romano . Il libro di Ingster e Suslina tratta argomenti più avanzati e potrebbe fornire ulteriori risposte.

Risposta: Tuttavia, le cose sono molto semplici: (o ) è la distanza "vera" da utilizzare. Non è conveniente per il calcolo formale (specialmente con le misure del prodotto, cioè quando si ha il campione di dimensione ) e si possono usare altre distanze (che sono limiti superiori di ). Lascia che ti dia i dettagli. T V n L 1L1TVnL1

Sviluppo: denotiamo con

  • α 0 P 0 P 1g1(α0,P1,P0) l'errore minimo di tipo II con errore di tipo I per e il valore nullo e l'alternativa.α0P0P1
  • t ( 1 - t ) P 0 P 1g2(t,P1,P0) la somma del minimo possibile errori di tipo I + tipo II con e il valore nullo e l'alternativa.t(1t)P0P1

Questi sono gli errori minimi che devi analizzare. Le uguaglianze (non i limiti inferiori) sono date dal teorema 1 di seguito (in termini di distanza (o distanza TV se quale)). Le disparità tra la distanza e le altre distanze sono date dal Teorema 2 (si noti che per limitare il limite degli errori è necessario il limite superiore di o ). L 1 L 1 T VL1L1L1TV

Quale vincolo usare allora è una questione di convenienza perché è spesso più difficile da calcolare rispetto a Hellinger o Kullback o . L'esempio principale di tale differenza appare quando e sono misure del prodotto che si presentano nel caso in cui si desideri testare contro con una dimensione campione. In questo caso e gli altri si ottengono facilmente da (lo stesso per e ) ma non puoi farlo con ...L1χ2P1P0Pi=pin i=0,1p1p0nh(P1,P0)h(p1,p0)KLχ2L1

Definizione: l'affinità tra due misure e è definita come .A1(ν1,ν0)ν1ν2

A1(ν1,ν0)=min(dν1,dν0)

Teorema 1 Se(metà della TV dist), quindi |ν1ν0|1=|dν1dν0|

  • 2A1(ν1,ν0)=(ν1+ν0)|ν1ν0|1 .
  • g1(α0,P1,P0)=supt[0,1/α0](A1(P1,tP0)tα0)
  • g2(t,P1,P0)=A1(tP0,(1t)P1)

Ho scritto la prova qui .

Teorema 2 Per distribuzioni di probabilità e : P1P0

12|P1P0|1h(P1,P0)K(P1,P0)χ2(P1,P0)

Questi limiti sono dovuti a numerosi statistici noti (LeCam, Pinsker, ...). è la distanza Hellinger, KL divergenza e la divergenza chi-quadrato. Sono tutti definiti qui . e vengono fornite le prove di questi limiti (ulteriori cose si possono trovare nel libro di Tsybacov ). C'è anche qualcosa che è quasi un limite inferiore di di Hellinger ...hKχ2L1


1
Grazie per la risposta, ora sto cercando di digerirla. Nel mio problema ho consentito l'errore di tipo I. Ho anche le due distribuzioni e . Conosco quella TV tra loro (e anche KL). Quindi, quello che stai dicendo è che la TV dà un limite inferiore più stretto all'errore di tipo II rispetto a KL, il che significa che dovrei usare la TV per la mia analisi se desidero il limite inferiore possibile? P0P1
MBM,

E grazie per il suggerimento del libro Lehmann e Romano, sembra molto utile e non troppo sulla mia testa. Inoltre, la mia biblioteca ne possiede una copia! :)
MBM,

@Bullmoose ciò che il Teorema 1 dice qui è che TV (o L1) è correlato con uguaglianza ad che è correlato con uguaglianza con g_2 o g_1 (la somma minima di errori o errore di tipo II con tipo I controllato). Non ci sono disuguaglianze qui. Le disuguaglianze arrivano quando devi passare da L1 a Kullback. A1
Robin Girard,

Sfortunatamente, ho solo un background minimo nella teoria delle misure. Penso di capire cosa sono e , ma non sono chiaro su . Supponiamo che io abbia due distribuzioni gaussiane. La TV (o L1) tra loro è Ma quale sarebbe ? Per definizione, sembra ...g1g2A1
12π|exp(x2/2σ12)σ1exp(x2/2σ22)σ2|dx
A1
12πmin(exp(x2/2σ12)σ1,exp(x2/2σ22)σ2)dx
MBM,

... ma in che modo a questo dal primo punto del teorema? (ν1+ν2)
MBM,

1

Rispondi alla tua prima domanda: Sì, meno la distanza di variazione totale è un limite inferiore della somma dei tassi di errore Tipo I + Tipo II. Questo limite inferiore si applica indipendentemente dall'algoritmo di verifica delle ipotesi scelto.

Motivazione: La risposta che hai ricevuto su Math.SE fornisce la prova standard di questo fatto. Risolvi un test di ipotesi. Lascia che indichi l'insieme di risultati su cui questo test rifiuterà l'ipotesi nulla (tale insieme deve sempre esistere). Quindi il calcolo nella risposta Math.SE dimostra il limite inferiore.A

(A rigor di termini, questa linea di ragionamento presuppone che il test di ipotesi sia una procedura deterministica. Ma anche se si considerano procedure randomizzate, è possibile dimostrare che lo stesso limite si applica comunque.)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.