Risposte:
Non esiste una fonte definita su come eseguire l'ingegneria delle funzionalità. Spesso dipende dal problema che stai cercando di risolvere. Alcuni sostengono che sia più un'arte che una scienza.
Ma andrei attraverso alcuni dei kernel Kaggle con il punteggio più alto / soluzioni vincenti se disponibili. Basta andare a ballare e sfogliare le competizioni. C'è molto materiale molto utile lì dentro.
Anche il giornale di ricerca sull'apprendimento automatico ha molti articoli sull'ingegneria delle caratteristiche. Basta cercare sul loro sito http://www.jmlr.org/ .
I seguenti collegamenti sono utili e lunghi da parafrasare:
Assegnazione dei dati mancanti:
Analisi completa del caso
Imputazione Media / Mediana / Modalità
Assegnazione campione casuale
Sostituzione per valore arbitrario
Indicatore di valore mancante
Imputazione multivariata
Codifica categorica:
Una codifica a caldo
Codifica di conteggio e frequenza
Codifica target / codifica media
Codifica ordinale
Peso dell'evidenza
Codifica di etichetta rara
BaseN, hashing delle funzionalità e altri
Trasformazione variabile:
Logaritmo
Reciproco
Radice quadrata
Esponenziale
Yeo-Johnson
Box-Cox
discretizzazione:
Discretizzazione di pari frequenza
Discretizzazione di uguale lunghezza
Discretizzazione con alberi
Discretizzazione con ChiMerge
Rimozione anomala:
Rimozione dei valori anomali
Trattare gli outlier come NaN
Capping, Windsorisation
Ridimensionamento funzionalità:
Standardizzazione
Ridimensionamento MinMax
Ridimensionamento medio
Ridimensionamento assoluto massimo
Ridimensionamento della norma dell'unità
Data e ora ingegneria:
Creazione di funzionalità:
Dati di transazione aggregati:
Estrarre funzionalità dal testo:
Borsa di parole
TFIDF
n-grammi
word2vec
estrazione di argomenti
E infine estrarre funzionalità dalle immagini.
Un buon articolo che descrive la maggior parte delle tecniche di cui sopra: Feature Feature una panoramica completa
Un buon elenco di risorse per ulteriori informazioni sull'ingegnerizzazione delle funzionalità: migliori risorse per informazioni sull'ingegnerizzazione delle funzionalità
Gli strumenti Python per l'ingegnerizzazione delle funzionalità sono disponibili in questo thread
DISCLAIMER: ho scritto i 2 articoli e sono anche il creatore di 1 dei corsi consigliati per conoscere l'ingegneria delle funzionalità.