Qual è la differenza tra una codifica a caldo e tralasciare una codifica?


13

Sto leggendo una presentazione e mi consiglia di non utilizzare lasciare una codifica, ma va bene con una codifica a caldo. Pensavo fossero entrambi uguali. Qualcuno può descrivere quali sono le differenze tra loro?


1
Non è chiaro (solo dalla tua domanda) che cosa sia anche il congedo. Dovresti modificarlo per dare un puntatore e spiegare brevemente la tua comprensione dei due, e perché pensi che siano gli stessi.
Sean Owen,

Risposte:


15

Probabilmente stanno usando "tralascia una codifica" per riferirsi alla strategia di Owen Zhang.

Da: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

La colonna codificata non è una variabile fittizia convenzionale, ma è invece la risposta media su tutte le righe per questo livello categoriale, esclusa la riga stessa. Questo ti dà il vantaggio di avere una rappresentazione a una colonna del categoriale evitando perdite di risposta diretta

Questa immagine esprime bene l'idea. inserisci qui la descrizione dell'immagine


La tua spiegazione è migliore di quella di Wacax nel link di riferimento, grazie
Allan Ruin del

Ciao @Dex Groves, quindi la codifica leave_one_out per il test è sempre .5?
user7117436

3
Ciao! Come si vede dalla figura, questo esempio paticolare riguarda il problema di classificazione. Qualcuno ha un'esperienza con la codifica LOO all'interno del problema di regressione? La domanda principale è come aggregare la variabile target. Ora sto facendo esperimenti e ottengo un enorme overfitting con la media (y).
Alexey Trofimov,

1
per un problema di clustering (senza supervisione), è possibile utilizzare questo tipo di codifica?
enneppi,

@AlexeyTrofimov: prova un'aggregazione con una varianza inferiore. Vorrei iniziare con diversi binning (come 1K, 2K, 2M, .. per valori y int di grandi dimensioni o alcuni arrotondamenti a una posizione decimale per valori float y) => mean (bin_f (y))
mork
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.