La mia comprensione è che nell'apprendimento automatico può essere un problema se il tuo set di dati ha caratteristiche altamente correlate, poiché codificano effettivamente le stesse informazioni.
Recentemente qualcuno ha sottolineato che quando si esegue la codifica one-hot su una variabile categoriale si finisce con funzionalità correlate, quindi è necessario rilasciarne una come "riferimento".
Ad esempio, codificare il genere come due variabili is_male
e is_female
, produce due caratteristiche che sono perfettamente correlate negativamente, quindi hanno suggerito di usarne solo una, impostare efficacemente la linea di base per dire maschio e quindi vedere se la colonna is_female è importante nell'algoritmo predittivo .
Ciò ha avuto senso per me, ma non ho trovato nulla online per suggerire che questo potrebbe essere il caso, quindi è sbagliato o mi sto perdendo qualcosa?
Possibile duplicato (senza risposta): la collinearità delle funzionalità con codifica a una sola opzione è importante per SVM e LogReg?
Does keeping all k values theoretically make them weaker features
. No (anche se non sono sicuro al 100% di cosa intendi per "più debole"). using something like PCA
Si noti, per ogni evenienza, che l'APC su un insieme di manichini che rappresentano una stessa variabile categoriale ha poco punto pratico perché le correlazioni all'interno dell'insieme di manichini riflettono semplicemente le relazioni tra le frequenze di categoria (quindi se tutte le frequenze sono uguali tutte le correlazioni sono uguali a 1 / (k-1)).
is_male
variabile rispetto a entrambe le opzioni? Forse non ha senso in questo contesto, e potrebbe essere un problema solo quando hai due diverse variabili che codificano effettivamente le stesse informazioni (ad esempio altezza in pollici e altezza in cm).
you end up with correlated features, so you should drop one of them as a "reference"
Le variabili fittizie o le variabili indicatore (questi sono i due nomi usati nelle statistiche, sinonimo di "codifica one-hot" nell'apprendimento automatico) sono comunque correlate in modo saggio, siano esse tutte variabili k o k-1. Quindi, la parola migliore è "statisticamente / informalmente ridondante" anziché "correlata".