L'ingegnerizzazione delle funzionalità è spesso un componente importante dell'apprendimento automatico (è stato utilizzato pesantemente per vincere la Coppa KDD nel 2010 ). Tuttavia, trovo che anche la maggior parte delle tecniche di ingegneria delle caratteristiche
- distruggere qualsiasi significato intuitivo delle funzionalità sottostanti o
- sono molto specifici per un determinato dominio o anche per particolari tipi di funzionalità.
Un classico esempio del primo sarebbe l'analisi della componente principale. Mi sembrerebbe che qualsiasi conoscenza che un esperto in materia avrebbe sulle funzionalità sarebbe distrutta convertendo tali funzionalità in componenti principali.
Contrastalo con una semplice tecnica di conversione di una data in funzioni per "giorno del mese" e "giorno della settimana". Il significato sottostante è ancora mantenuto nelle nuove funzionalità, ma ovviamente questa particolare tecnica si applica solo alle date e non a caratteristiche arbitrarie.
Esiste un corpus standard di tecniche di ingegneria delle caratteristiche che non distruggono il significato delle caratteristiche sottostanti pur essendo applicabili anche a domini arbitrari (o almeno a una vasta gamma di domini)?