tl; dr
- Qual è il modo consigliato di trattare i
discrete
dati quando si esegue il rilevamento di anomalie? - Qual è il modo consigliato di trattare i
categorical
dati quando si esegue il rilevamento di anomalie? - Questa risposta suggerisce l'utilizzo di dati discreti per filtrare i risultati.
- Sostituisci forse il valore della categoria con la probabilità percentuale di osservazione?
Intro
Questa è la prima volta che scrivo qui, quindi, per favore, se qualcosa non sembra tecnicamente corretto, sia nella formattazione, sia nell'uso delle definizioni corrette, sono interessato a sapere cosa avrebbe dovuto essere usato invece.
In poi.
Recentemente ho preso parte al corso di Machine Learning di Andrew Ng
Per il rilevamento di anomalie ci è stato insegnato a determinare quali sono i parametri di distribuzione Normale / Gaussiana per una data caratteristica / variabile, all'interno di un set di dati, e quindi determinare la probabilità di un set scelto di valore di esempio di addestramento / osservazione dato che particolare distribuzione gaussiana, e quindi prendendo il prodotto delle probabilità delle funzionalità.
Metodo
Scegli caratteristiche / variabili che riteniamo spieghino l'attività in questione: { x 1 , x 2 , … , x i }
Adatta i parametri del gaussiano per ogni funzione: σ2=1
Per ogni esempio di addestramento, , calcola: p ( x ) = n ∏ j = 1 p ( x j ; μ j , σ 2 j )
Quindi segnaliamo come un'anomalia ( ), dato: y = \ left \ {\ begin {array} {ll} 1 & \ quad p (x) <\ epsilon \\ 0 & \ quad p (x) \ geq \ epsilon \ end {array} \ right.y = { 1
Questo ci dà il metodo con cui determinare se un esempio richiede un'ulteriore ispezione.
Le mie domande)
Questo sembra andare bene per variabili / caratteristiche continue, ma i dati discreti non vengono indirizzati.
Che dire delle variabili fittizie, ad es. Una caratteristica flag di genere, forse chiamata [IsMale]
che può essere del valore ? Per tenere conto di una funzione fittizia, utilizzeremo invece la distribuzione binomiale per calcolare ?p ( x )
Che dire dei dati categorici come il colore delle auto? Mentre potremmo mappare i colori su valori numerici, ad esempio , la distribuzione di una tale caratteristica categoriale potrebbe essere vicina all'uniforme (cioè probabilità altrettanto uguali di essere uno dei colori), e inoltre, come qualsiasi la mappatura numerica che si verifica (ovvero il con il valore , ecc.) non è ordinale, ha senso cercare di trasformare qualsiasi distribuzione non normale di frequenze affinché i colori vengano distribuiti normalmente (importa anche che non sia ordinale? ?)? Ad esempio, per me, non avrebbe senso fare una trasformazione poiché i dati non sono né continui né ordinali. Quindi forse sarebbe meglio trovare una distribuzione discreta che si adatta alla funzionalità, invece di "torturare" i dati per adattarli al gaussiano?
Domande: (aggiornato: 24-11-2015)
Le variabili binarie possono essere modellate con una distribuzione di probabilità binomiale e diventare un altro fattore nel calcolo ?Le variabili categoriali dovrebbero essere modellate con una distribuzione di probabilità discreta invece di un gaussiano e diventare un altro fattore nel calcolo ?Esiste un altro metodo che tenga conto di ciò che sto chiedendo qui di poter approfondire / approfondire?- Qual è il modo consigliato di trattare i
discrete
dati quando si esegue il rilevamento di anomalie? - Qual è il modo consigliato di trattare i
categorical
dati quando si esegue il rilevamento di anomalie?
Modifica: 2017-05-03
- Questa risposta suggerisce l'utilizzo di dati discreti per filtrare i risultati.
- Sostituisci forse il valore della categoria con la probabilità percentuale di osservazione?