Ingegnerizzazione di caratteristiche indipendenti dal dominio che conserva un significato semantico?


12

L'ingegnerizzazione delle funzionalità è spesso un componente importante dell'apprendimento automatico (è stato utilizzato pesantemente per vincere la Coppa KDD nel 2010 ). Tuttavia, trovo che anche la maggior parte delle tecniche di ingegneria delle caratteristiche

  • distruggere qualsiasi significato intuitivo delle funzionalità sottostanti o
  • sono molto specifici per un determinato dominio o anche per particolari tipi di funzionalità.

Un classico esempio del primo sarebbe l'analisi della componente principale. Mi sembrerebbe che qualsiasi conoscenza che un esperto in materia avrebbe sulle funzionalità sarebbe distrutta convertendo tali funzionalità in componenti principali.

Contrastalo con una semplice tecnica di conversione di una data in funzioni per "giorno del mese" e "giorno della settimana". Il significato sottostante è ancora mantenuto nelle nuove funzionalità, ma ovviamente questa particolare tecnica si applica solo alle date e non a caratteristiche arbitrarie.

Esiste un corpus standard di tecniche di ingegneria delle caratteristiche che non distruggono il significato delle caratteristiche sottostanti pur essendo applicabili anche a domini arbitrari (o almeno a una vasta gamma di domini)?


2
A volte PCA può essere utilizzato per trovare significati intuitivi per le funzionalità, ad es . Autovetture .
TD

Puoi fornire (più) esempi dei dati che hai in mente? se puoi essere più specifico sulla tua applicazione (anche qualche esempio arbitrario) sarà più facile dare una risposta (più) accurata.
Dov

1
@Dov Bene, il punto è che (idealmente) mi piacerebbe qualcosa che potesse funzionare praticamente per qualsiasi set di dati strutturato e tabellare (uno che ha punti dati e funzionalità). Quindi potrebbero trattarsi di dati sulle vendite, dati finanziari, dati sulla scoperta di droghe, dati sul baseball, ecc.
Michael McGowan,

Risposte:


7

Sono a conoscenza di un metodo di decomposizione (ma forse ce ne sono altri ...) che può essere utile in uno scenario come quello che descrivi. È come il 2D-PCA - un metodo di decomposizione di alto ordine in cui la decomposizione (cioè i fattori) ha un significato. Puoi vedere esempi e leggere a riguardo qui e qui e provare a qui


+ Per favore perdonami che non sono un madrelingua inglese :)
Dov

Da quanto mi è stato detto, l'ultimo passo del PCA dovrebbe essere il tentativo di trovare un significato per il componenet principale.
jb.

5

I recenti metodi di apprendimento profondo che utilizzano la Boltzmann Machine con restrizioni hanno mostrato funzioni interessanti su diversi tipi di dati (audio, immagini, testo).

Poiché questi metodi creano un modello generativo, spesso è possibile generare campioni davvero interessanti dal modello.

Dai un'occhiata alle pubblicazioni di Hinton. http://www.cs.toronto.edu/~hinton/

Questi metodi non sono del tutto generali (eseguono lo stesso codice su tutti i dati), ma il modello sottostante è generalmente simile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.