Elenco delle tecniche di ingegneria delle caratteristiche


Risposte:


10

Non esiste una fonte definita su come eseguire l'ingegneria delle funzionalità. Spesso dipende dal problema che stai cercando di risolvere. Alcuni sostengono che sia più un'arte che una scienza.

Ma andrei attraverso alcuni dei kernel Kaggle con il punteggio più alto / soluzioni vincenti se disponibili. Basta andare a ballare e sfogliare le competizioni. C'è molto materiale molto utile lì dentro.

Anche il giornale di ricerca sull'apprendimento automatico ha molti articoli sull'ingegneria delle caratteristiche. Basta cercare sul loro sito http://www.jmlr.org/ .

I seguenti collegamenti sono utili e lunghi da parafrasare:

  • Alcune informazioni su alcune migliori pratiche di ingegneria delle funzionalità sono disponibili su Quora, vedere questo link
  • Alla padronanza dell'apprendimento automatico c'è questa pagina sull'ingegnerizzazione delle funzionalità.

3

Assegnazione dei dati mancanti:

  1. Analisi completa del caso

  2. Imputazione Media / Mediana / Modalità

  3. Assegnazione campione casuale

  4. Sostituzione per valore arbitrario

  5. Indicatore di valore mancante

  6. Imputazione multivariata

Codifica categorica:

  1. Una codifica a caldo

  2. Codifica di conteggio e frequenza

  3. Codifica target / codifica media

  4. Codifica ordinale

  5. Peso dell'evidenza

  6. Codifica di etichetta rara

  7. BaseN, hashing delle funzionalità e altri

Trasformazione variabile:

  1. Logaritmo

  2. Reciproco

  3. Radice quadrata

  4. Esponenziale

  5. Yeo-Johnson

  6. Box-Cox

discretizzazione:

  1. Discretizzazione di pari frequenza

  2. Discretizzazione di uguale lunghezza

  3. Discretizzazione con alberi

  4. Discretizzazione con ChiMerge

Rimozione anomala:

  1. Rimozione dei valori anomali

  2. Trattare gli outlier come NaN

  3. Capping, Windsorisation

Ridimensionamento funzionalità:

  1. Standardizzazione

  2. Ridimensionamento MinMax

  3. Ridimensionamento medio

  4. Ridimensionamento assoluto massimo

  5. Ridimensionamento della norma dell'unità

Data e ora ingegneria:

  1. Estrazione di giorni, mesi, anni, trimestri, tempo trascorso

Creazione di funzionalità:

  1. Somma, sottrazione, media, min, max, prodotto, quoziente di un gruppo di funzioni

Dati di transazione aggregati:

  1. Come sopra ma nella stessa funzione nel tempo

Estrarre funzionalità dal testo:

  1. Borsa di parole

  2. TFIDF

  3. n-grammi

  4. word2vec

  5. estrazione di argomenti

E infine estrarre funzionalità dalle immagini.

Un buon articolo che descrive la maggior parte delle tecniche di cui sopra: Feature Feature una panoramica completa

Un buon elenco di risorse per ulteriori informazioni sull'ingegnerizzazione delle funzionalità: migliori risorse per informazioni sull'ingegnerizzazione delle funzionalità

Gli strumenti Python per l'ingegnerizzazione delle funzionalità sono disponibili in questo thread

DISCLAIMER: ho scritto i 2 articoli e sono anche il creatore di 1 dei corsi consigliati per conoscere l'ingegneria delle funzionalità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.