Trasformazione delle caratteristiche sui dati di input


22

Stavo leggendo la soluzione a questa sfida OTTO Kaggle e la soluzione al primo posto sembra utilizzare diverse trasformazioni per i dati di input X, ad esempio Log (X + 1), sqrt (X + 3/8), ecc. C'è un linea guida generale su quando applicare quali trasformazioni di tipo a vari classificatori?

Comprendo i concetti di normalizzazione media-var e min-max. Tuttavia, per le trasformazioni di cui sopra, la mia ipotesi è che Log e Sqrt vengano utilizzati per comprimere l'intervallo dinamico dei dati. E lo spostamento dell'asse x è solo per i dati più recenti. Tuttavia, l'autore sceglie di utilizzare diversi metodi di normalizzazione per lo stesso input X durante l'alimentazione in classificatori diversi. Qualche idea?


1
Non ho idea di cosa possa suggerire quel tipo di formule, ma potresti voler esaminare le trasformazioni box-cox, che suggeriscono esponenti per le variabili.
anymous.asker

Risposte:


19

Adoriamo la forma normale

Nella maggior parte dei casi cerchiamo di farli agire come al solito. Non è il punto di vista dei classificatori ma la sua vista di estrazione delle caratteristiche!

Quale trasformazione ?

Il criterio principale nella scelta di una trasformazione è: cosa funziona con i dati? Come indicato negli esempi precedenti, è importante considerare anche due domande.

Che cosa ha senso fisico (biologico, economico, qualunque cosa), ad esempio in termini di comportamento limitante quando i valori diventano molto piccoli o molto grandi? Questa domanda porta spesso all'uso dei logaritmi.

Possiamo mantenere dimensioni e unità semplici e convenienti? Se possibile, preferiamo scale di misurazione facili da considerare.

La radice cubica di un volume e la radice quadrata di un'area hanno entrambe le dimensioni della lunghezza, così lontane dal complicare le cose, tali trasformazioni possono semplificarle. I reciproci di solito hanno unità semplici, come menzionato in precedenza. Spesso, tuttavia, le unità un po 'complicate sono un sacrificio che deve essere fatto.

Quando usare cosa ?

Le trasformazioni più utili nell'analisi introduttiva dei dati sono il reciproco, il logaritmo, la radice del cubo, la radice quadrata e il quadrato. In ciò che segue, anche quando non è enfatizzato, si suppone che le trasformazioni vengano utilizzate solo su intervalli su cui danno come risultato numeri reali (finiti).

  • Alternativo : il reciproco, da x a 1 / x, con il suo fratello il reciproco negativo, da x a -1 / x, è una trasformazione molto forte con un effetto drastico sulla forma di distribuzione. Non può essere applicato a valori zero. Sebbene possa essere applicato a valori negativi, non è utile a meno che tutti i valori non siano positivi. Il reciproco di un rapporto può spesso essere interpretato facilmente come il rapporto stesso: Esempio:
    • la densità di popolazione (persone per unità di superficie) diventa area per persona
    • le persone per medico diventano dottori per persona
    • i tassi di erosione diventano tempo per erodere una profondità unitaria

(In pratica, potremmo voler moltiplicare o dividere i risultati del prendere il reciproco per alcune costanti, come 1000 o 10000, per ottenere numeri che sono facili da gestire, ma che di per sé non ha alcun effetto sull'asimmetria o sulla linearità.)

Il reciproco inverte l'ordine tra i valori dello stesso segno: il più grande diventa il più piccolo, ecc. Il reciproco negativo conserva l'ordine tra i valori dello stesso segno.


  • Logaritmo : il logaritmo, x log 10 x, o x log ex o ln x, o x log 2 x, è una trasformazione forte con un effetto importante sulla forma della distribuzione. È comunemente usato per ridurre l'asimmetria giusta ed è spesso appropriato per le variabili misurate. Non può essere applicato a valori zero o negativi. Un'unità su una scala logaritmica indica una moltiplicazione per la base dei logaritmi in uso. Crescita o declino esponenziale.

    • y=un'eXp(BX)

lny=lnun'+BXX=0y=un'eXp(0)=un' in modo che a sia la quantità o il conteggio quando x = 0. Se a e b> 0, allora y cresce a un ritmo sempre più rapido (ad es. interesse composto o crescita della popolazione non controllata), mentre se a> 0 e b <0, y diminuisce a un ritmo sempre più lento (ad es. decadimento radioattivo).


  • Funzioni di potenza :
  • y=un'XBlogy=logun'+BlogX
    X=0B>0

  • y=un'XB=0

    • Considera i rapporti y = p / q dove p e q sono entrambi positivi nella pratica.
  • Esempi sono:

    • Maschi / Femmine
    • Dipendenti / lavoratori
    • Lunghezza a valle / Lunghezza a valle
  • Quindi y è da qualche parte tra 0 e infinito, o nell'ultimo caso, tra 1 e infinito. Se p = q, allora y = 1. Tali definizioni spesso portano a dati distorti, poiché esiste un limite inferiore chiaro e nessun limite superiore chiaro. Il logaritmo, tuttavia, vale a dire

  • log y = log p / q = log p - log q, si trova tra -infinity e infinity e p = q significa che log y = 0. Quindi il logaritmo di un tale rapporto è probabilmente distribuito in modo più simmetrico.


  • Radice cubo : radice del cubo, x 1/3 . Questa è una trasformazione abbastanza forte con un effetto sostanziale sulla forma della distribuzione: è più debole del logaritmo. Viene anche usato per ridurre l'asimmetria giusta e ha il vantaggio di poter essere applicato a valori zero e negativi. Si noti che la radice del cubo di un volume ha le unità di una lunghezza. Viene comunemente applicato ai dati sulle precipitazioni.

    • L'applicabilità a valori negativi richiede una nota speciale. Considera
      (2) (2) (2) = 8 e (-2) (- 2) (- 2) = -8. Questi esempi mostrano che la
      radice cubica di un numero negativo ha segno negativo e lo stesso
      valore assoluto della radice cubica del numero positivo equivalente. Una proprietà simile è posseduta da qualsiasi altra radice il cui potere è il
      reciproco di un intero positivo dispari (poteri 1/3, 1/5, 1/7, ecc.)

    • Questa proprietà è un po 'delicata. Ad esempio, cambia la potenza solo di un smidgen da 1/3 e non possiamo più definire il risultato come un prodotto di tre termini precisi. Tuttavia, la proprietà è lì per essere sfruttata se utile.


  • X(1/2)

  • X2

    y=un'+BX+cX2



    le quadratiche vengono generalmente utilizzate solo perché possono imitare una
    relazione all'interno dell'area dati. Al di fuori di quella regione, possono
    comportarsi in modo molto scadente, poiché assumono valori arbitrariamente grandi per valori estremi di x e, a meno che l'intercetta a non sia vincolata a 0, possono comportarsi in modo irrealistico vicino all'origine.
    • (-X)2X2


Grazie per il post. veramente utile. puoi forse completarlo con alcuni esempi e figure che descrivono come trasforma i dati originali in dati separabili?
Mvkt,

1
@svk: ho appena formattato in modo comprensibile, penso che Hadi fosse la persona che ha scritto la risposta. Se la mia ipotesi è giusta, potrebbe aver copiato da qualche libro. Vediamo se risponde / suggerisce qualcosa. Altrimenti scriverebbe una risposta
Toros91,

2
come ha detto @ Toros91, è la combinazione di diverse fonti, consiglio vivamente di vedere Come vincere un concorso di data science: impara dai migliori Kagglers e anche dai docs
hadi gharibi,

alrite. anche se uno di voi può pubblicare qualche esempio di codice in python o matlab su come trasformare gli assi x in sq.root o cubo root scale. matlab ha la trama del loglog per la scala del log. ma per altre scale, sarà utile avere una trama con questi assi trasformati
Mvkt

1

Questi specifici potrebbero essere puramente euristici. Per le immagini è piuttosto standard: cambia RGB in BGR e sottrai la media da ogni pixel. Viene utilizzato in tutti i concorsi / set di dati come Imagenet, Pascal VOC, MS COCO. Il motivo è che alla rete viene presentato un set di dati standardizzato, poiché tutte le immagini possono essere molto diverse.


0

Lo stesso qui - nessuna idea, non l'ho mai visto prima. Immagino che abbiano provato diverse trasformazioni e abbiano scelto quella che funzionava meglio. Dal momento che nel rapporto affermano che anche alcune altre trasformazioni andrebbero bene.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.