Qual è il modo migliore per selezionare automaticamente le funzionalità per il rilevamento delle anomalie?
Io di solito tratto Anomaly Detection come un algoritmo in cui le caratteristiche sono selezionati da esperti umani: ciò che conta è l'uscita gamma (come in "ingresso anormale - uscita anormale"), quindi anche con tante caratteristiche che posso venire con un sottoinsieme molto più piccolo, combinando le caratteristiche.
Tuttavia, supponendo che in generale un elenco di funzionalità possa essere enorme, a volte è preferibile un apprendimento automatizzato. Per quanto posso vedere, ci sono alcuni tentativi:
- "Selezione automatica delle funzionalità per il rilevamento di anomalie" ( pdf ) che generalizza la descrizione dei dati vettoriali di supporto
- "Un sistema di rilevamento delle intrusioni basato su host rapido che utilizza la teoria dei set approssimativi " (non è disponibile un pdf?) Che, immagino, utilizza la teoria dei set approssimativi
- "Regole di apprendimento per il rilevamento di anomalie del traffico di rete ostile" ( pdf , video ) che utilizza un approccio statistico
Quindi ora mi chiedo se qualcuno può dirlo - supponendo il rilevamento di anomalie e un set di funzionalità davvero grande (centinaia?):
- Questi enormi set di funzionalità hanno senso? Non dovremmo semplicemente ridurre la funzionalità impostata, per esempio, a poche decine e basta?
- Se un vasto set di funzionalità ha un senso, quale degli approcci di cui sopra darebbe previsioni migliori e perché? C'è qualcosa non elencato che è molto meglio?
- Perché dovrebbero fornire risultati migliori rispetto, per esempio, alla riduzione della dimensionalità o alla costruzione di feature tramite clustering / ranking / etc?