Perché le trasformazioni di potenza o di registro non vengono insegnate molto nell'apprendimento automatico?

24

L'apprendimento automatico (ML) utilizza fortemente le tecniche di regressione lineare e logistica. Essa si basa anche su tecniche di ingegneria funzione ( feature transform, kernel, ecc).

Perché non si parla di variable transformation(ad esempio power transformation) in ML? (Ad esempio, non ho mai sentito parlare di root o log su feature, di solito usano solo polinomi o RBF.) Allo stesso modo, perché gli esperti di ML non si preoccupano delle trasformazioni di feature per la variabile dipendente? (Ad esempio, non ho mai sentito parlare della trasformazione del log di y; semplicemente non trasformano y.)

Modifiche: forse la domanda non è assolutamente, la mia vera domanda è "la trasformazione del potere in variabili non è importante in ML?"

regression machine-learning data-transformation

— WeiChing Lin
fonte

4

Mi piacerebbe sapere perché questo è stato sottoposto a downgrade; è in realtà una domanda interessante.

— Shadowtalker,

1

Penso che molte persone avrebbero seguito un corso di regressione lineare prima del loro primo corso ML. Sicuramente, il corso LR di serie conterrebbe un capitolo su queste cose (trasformazioni). A proposito, non ho votato a fondo sulla domanda.

— user603

12

Il libro Applied Predictive Modeling di Kuhn e Johnson è un libro di apprendimento automatico molto apprezzato con un'ampia sezione sulla trasformazione variabile, incluso Box-Cox. Gli autori sostengono che molti algoritmi di machine learning funzionano meglio se le funzionalità hanno distribuzioni simmetriche e unimodali. Trasformare le funzionalità in questo modo è una parte importante dell '"ingegneria di funzionalità".

— Flounderer
fonte

8

Bene dal mio punto di vista, abbastanza spesso sono interessato alla distribuzione predittiva della variabile di risposta, piuttosto che solo alla media condizionale, e in quel caso è meglio usare una probabilità che rappresenti più correttamente la distribuzione target. Ad esempio, mi piace usare modelli lineari con kernel piuttosto che (diciamo) supportare la regressione vettoriale, perché posso usare una probabilità di Poisson se lo desidero. Poiché molte persone di machine learning sono bayesiane, sospetto che l'uso di una diversa probabilità sembrerà più elegante delle trasformazioni (la scelta di una probabilità appropriata è generalmente il primo passo).

— Dikran Marsupial
fonte

0

Ecco i miei pensieri successivi.

Penso che sia perché ML si occupa in gran parte della classificazione e la classificazione non è necessaria per trasformare y (y è categorico). ML di solito si occupa di grandi variabili indipendenti (ad esempio migliaia nella PNL) e la regressione logistica non richiede la normalità; Penso che sia per questo che non usano la trasformazione di potenza Box-Cox a causa della velocità di considerazione. (nota: non ho familiarità con la trasformazione del potere.)

— WeiChing Lin
fonte