Determinazione di una discretizzazione ottimale dei dati da una distribuzione continua


11

Supponiamo di avere un set di dati da una distribuzione continua con densità supportata su che non è noto, ma è piuttosto grande, quindi una densità del kernel (ad esempio) la stima, , è piuttosto accurata. Per una particolare applicazione ho bisogno di trasformare i dati osservati in un numero finito di categorie per produrre un nuovo set di dati con una funzione di massa implicita .Y1,...,Ynp(y)[0,1]p ( y ) Z 1 , . . . , Z n g ( z )np^(y)Z1,...,Zng(z)

Un semplice esempio potrebbe essere quando e quando . In questo caso la funzione di massa indotta sarebbeZi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

I due "parametri di ottimizzazione" qui sono il numero di gruppi, , e il vettore di lunghezza delle soglie . Indica la funzione di massa indotta da .m(m1)g m , λ ( y )λg^m,λ(y)

Vorrei una procedura che rispondesse, ad esempio, "Qual è la scelta migliore di modo che l'aumento del numero di gruppi a (e la scelta del ottimale lì) produrrebbe un miglioramento trascurabile?" . Sento che forse è possibile creare una statistica di prova (forse con la differenza nella divergenza di KL o qualcosa di simile) la cui distribuzione può essere derivata. Qualche idea o letteratura pertinente?m,λm+1λ

Modifica: ho spaziato uniformemente le misurazioni temporali di una variabile continua e sto usando una catena di Markov inomogenea per modellare la dipendenza temporale. Francamente, le catene di markov statali discrete sono molto più facili da gestire e questa è la mia motivazione. I dati osservati sono percentuali. Attualmente sto usando una discretizzazione ad hoc che mi sembra molto buona, ma penso che questo sia un problema interessante in cui è possibile una soluzione formale (e generale).

Modifica 2: minimizzare effettivamente la divergenza di KL equivarrebbe a non discretizzare i dati, quindi l'idea è totalmente fuori. Ho modificato il corpo di conseguenza.


1
Nella maggior parte dei casi, le esigenze dell'applicazione successiva determineranno la bontà di qualsiasi soluzione. Forse, per darci qualche consiglio, potresti dire di più al riguardo.
whuber

Innanzitutto, definisci cosa intendi per trascurabile . Off-hand, questo sembra correlato a un problema di distorsione della frequenza . Il testo di Cover & Thomas offre una buona introduzione leggibile a tali argomenti.
cardinale

Penso alla discretizzazione con livelli come un modello con parametri (per le soglie). In questa impostazione, quando dico trascurabile, intendo "non vale la pena aggiungere il parametro aggiuntivo" in senso statistico. kk1
Macro,

Non sono sicuro che la discretizzazione sia effettivamente una buona mossa. Non sarai in grado di generalizzare oltre i confini che i valori discreti creano nello spazio originale delle tue osservazioni.
Bayerj,

Risposte:


3

Condividerò la soluzione che mi è venuta in mente un po 'di tempo fa: non si tratta di un test statistico formale ma può fornire un'euristica utile.


Considera il caso generale in cui hai osservazioni continue ; senza perdita di generalità supponiamo che lo spazio campione di ciascuna osservazione sia l'intervallo . Uno schema di categorizzazione dipenderà da un numero di categorie, e dalle soglie delle posizioni che dividono le categorie, .Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

Indica la versione categorizzata di di , dove . Considerando la discretizzazione dei dati come un partizionamento dei dati originali in classi, la varianza di può essere considerata come una combinazione di variazione all'interno e tra i gruppi, per un valore fisso di :YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

Una data categorizzazione ha successo nel produrre gruppi omogenei se c'è relativamente poca varianza all'interno del gruppo, quantificata da . , cerchiamo un raggruppamento parsimonioso che conferisca la maggior parte della variazione in al termine . in particolare, vogliamo scegliere modo che, aggiungendo livelli aggiuntivi, non aggiungiamo in modo significativo all'omogeneità all'interno del gruppo. Con questa ragione, definiamo ottimale per un valore fisso di daE(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

Una diagnostica approssimativa per determinare quale scelta di è adeguata è guardare il dropoff in in funzione di : questa traiettoria è monotonicamente non crescente e dopo che diminuisce drasticamente, puoi vedere che stai acquisendo una precisione relativamente minore includendo più categorie. Questo euristico è simile nello spirito al modo in cui un " Trame grafico " viene talvolta utilizzato per vedere quanti componenti principali spiegano "abbastanza" della variazione.mE(var(Yi|Zi(m,λm)))m

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.