Determinare la soglia della regola di decisione binaria ottimale dalle osservazioni con priori sconosciuti?


8

Considerate solo le osservazioni di un segnale binario perturbato dal rumore gaussiano con informazioni precedenti sconosciute, come posso stimare la soglia di decisione ottimale?

(No, questa non è una domanda a casa)

In particolare, penso al seguente modello: è una variabile casuale a due stati :Y(H0,H1)

  • P(Y|H0)N(μ0,σ)
  • P(Y|H1)N(μ1,σ),μ0<μ1
  • P(H0)=π0
  • P(H1)=1π0

con parametri sconosciuti : .μ0,μ1,σ,π0

La soglia di verosimiglianza massima a posteriori potrebbe essere calcolata da questi parametri se li conoscessi. Inizialmente stavo pensando a come stimare prima i parametri per raggiungere la soglia . Ma sto pensando che potrebbe essere più robusto stimare direttamente .YtYt

Considerazioni: la normalizzazione delle osservazioni (sottrazione della media del campione e divisione per deviazione standard) riduce lo spazio dei parametri in 2 dimensioni: e .π0σμ1μ0


Questo problema sarebbe molto più semplice se potessi supporre che Pi0 fosse 0,5. :-)
Jim Clay

Potrebbe questa domanda essere in qualche modo legato a questi: stackoverflow.com/questions/1504378/... o stackoverflow.com/questions/5451089/...
hotpaw2

È disponibile una sequenza di osservazioni formative per stimare le medie, le varianze, ecc.? Oppure ti viene semplicemente data una sequenza di dati in cui alcuni valori provengono da e alcuni da ma non sai quale sia quale? H0H1
Dilip Sarwate,

Risposte:


6

La mia intuizione è che sarebbe difficile ottenere la giusta soglia di decisione che ci si aspetta di trovare:

τ=12(μ0+μ1)σ2μ0μ12logπ1π(μ0μ1)

Dalle statistiche globali che stai prendendo in considerazione (media di esempio: ; deviazione standard: espressione più complessa ma dubito che implicherebbe un log).πμ0+(1π)μ1

Vorrei affrontare il problema in questo modo:

  1. Se si può supporre che sia piccoloσ

    Lo dico, perché tieni presente che la soglia di decisione è influenzata da solo se è sufficientemente alto da consentire a entrambe le classi di sovrapporsi. Se i sono distanti da più di alcuni , le probabilità della classe precedente non hanno nulla da dire nel processo decisionale!πσμσ

    • Esegui k-mean sulle tue osservazioni ( è piccolo ed è condiviso da entrambe le classi, quindi k-mean è in questo caso EM per il modello di miscela). Se vuoi semplicemente binarizzare queste osservazioni e nessun altro dato, puoi fermarti qui.σ
    • Se hai nuove osservazioni da binarizzare e sai che sono generate dallo stesso processo, puoi usare i centroidi di classe trovati dai k- medie sui tuoi dati di allenamento come stime di e usare il centro come soglia di decisione.μ
  2. Se non si può fare alcuna supposizione suσ

    • Esegui l'algoritmo EM (con covarianza diagonale in pool) sui dati di allenamento. Usa le variabili inferite "appartenenza alla classe soft" per binarizzare le tue osservazioni.
    • Calcola la soglia di decisione dai parametri forniti da EM per binarizzare i nuovi dati generati dallo stesso processo.τ

2

Per riassumere hai due distribuzioni con parametri sconosciuti e una misurazione che potrebbe aver avuto origine da uno dei processi stocastici. Questo è generalmente indicato come un problema di associazione dei dati ed è molto comune e ampiamente studiato all'interno della comunità di monitoraggio. Si potrebbe prendere in considerazione l'utilizzo di un algoritmo PDAF (Probability Data Association Filter) o Multi-Hypothesis Tracking (MHT). Ciò dovrebbe fornire stime della media e della varianza per ciascuna distribuzione.
In alternativa, poiché il rumore è bianco e gaussiano, ML, MAP e MMSE sono tutti equivalenti e possono essere trovati minimizzando l'errore al quadrato medio (funzione di costo), come è effettivamente descritto dalla risposta precedente. Vorrei utilizzare un approccio di programmazione dinamica per trovare il minimo della funzione di costo. Questo dovrebbe essere meno complesso (dal punto di vista computazionale) rispetto ai metodi EM / clustering precedentemente descritti. Un altro commento: il PDAF è ricorsivo. Dato il semplice modello di segnale, dovrebbe funzionare in modo molto efficace e ciò che mi aspetto è una frazione della complessità computazionale dell'algoritmo EM. Buona fortuna, -B


1

Esiste un algoritmo della metà degli anni '80 di Kittler e Illingworth chiamato "Minimum Error Thresholding" che risolve questo problema per le distribuzioni gaussiane. Recentemente Mike Titterington (Università di Glasgow) e JH Xue (ora alla UCL) hanno inserito questo in un quadro statistico più formale, vedi le loro pubblicazioni su riviste congiunte.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.