Media zero e varianza unitaria


Risposte:


8

Le domande sull'opportunità e sul perché dipendono dal contesto.

  • Per gli alberi decisionali potenziati dal gradiente, ad esempio, non è importante: questi algoritmi ML "non si preoccupano" delle trasformazioni monotone dei dati; cercano solo punti per dividerlo.

  • Per i predittori lineari, ad esempio, il ridimensionamento può migliorare l'interpretazione dei risultati. Se desideri considerare l'entità dei coefficienti come un'indicazione di quanto una caratteristica influisce sul risultato, allora le caratteristiche devono essere ridimensionate in qualche modo nella stessa area.

  • Per alcuni predittori, in particolare NN, il ridimensionamento, e in particolare il ridimensionamento in un determinato intervallo, può essere importante per motivi tecnici. Alcuni livelli utilizzano funzioni che cambiano effettivamente solo all'interno di un'area (simile alla famiglia di funzioni iperboliche ) e se le caratteristiche sono troppo al di fuori dell'intervallo, può verificarsi saturazione. Se ciò accade, le derivate numeriche funzioneranno male e l'algoritmo potrebbe non essere in grado di convergere in un buon punto.

inserisci qui la descrizione dell'immagine


2

Nel caso della media zero, ciò è dovuto al fatto che alcuni modelli di apprendimento automatico non includono il termine bias nella loro rappresentazione, quindi dobbiamo spostare i dati intorno all'origine prima di inviarli all'algoritmo per compensare la mancanza del termine bias. In caso di varianza delle unità, ciò è dovuto al fatto che molti algoritmi di apprendimento automatico utilizzano un qualche tipo di distanza (ad esempio Euclide) per decidere o prevedere. Se una particolare funzione ha valori ampi (cioè una grande varianza), la distanza sarà fortemente influenzata da quella caratteristica e l'effetto di altre caratteristiche verrà ignorato. A proposito, alcuni algoritmi di ottimizzazione (inclusa la discesa del gradiente) hanno prestazioni migliori quando i dati sono standardizzati.


2
  • Ogni volta che iniziamo con qualsiasi set di dati nell'apprendimento automatico, spesso assumiamo che tutte le funzionalità dei dati siano ugualmente importanti rispetto all'output e che una funzionalità non debba dominare su altre funzionalità. Questo è generalmente il motivo per cui scegliamo di portare tutte le funzionalità sulla stessa scala.
    Tuttavia, si può sollevare un dubbio qui che anche se le funzionalità non sono normalizzate, i pesi assegnati ad esso durante l'apprendimento possono aiutare il set di dati a convergere all'output previsto durante l'allenamento. Il problema è che ci vorrà molto tempo per allenarsi e produrre risultati.
  • Scegliere il numero 0 specifico come media e varianza 1 è solo la facilità di visualizzazione e mantenere numeri così piccoli aiuterebbe ad allenarsi più velocemente.

Quindi, si suggerisce di portare tutte le funzionalità sulla stessa scala abbastanza piccole da allenarsi facilmente. Di seguito il link discute anche un concetto simile. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.