L'idea di rendere i dati ha una media zero


12

Vedo spesso che le persone che fanno una dimensione / caratteristica di un set di dati hanno una media zero rimuovendo la media da tutti gli elementi. Ma non ho mai capito perché farlo? Qual è l'effetto di farlo come una fase di preelaborazione? Migliora le prestazioni di classificazione? Aiuta a rispondere a qualcosa sul set di dati? Aiuta quando si esegue una visualizzazione per comprendere i dati?


9
Questo approccio si chiama centraggio . Una delle sue applicazioni è quella di trasformare l'intercettazione del modello di regressione in "previsione y quando x è in media", rendendo l'intercettazione un po 'più interpretabile.
Penguin_Knight,

Una caratteristica / set di dati centrati può anche essere ben condizionato . Vedi qui per una spiegazione visiva. L'operazione di normalizzazione dell'input rende molto più semplice la discesa del gradiente.
sintonizzato il

Risposte:


12

Alcuni casi in cui "centrare i dati sulla sua media" (di seguito solo "de-significato") è utile:

N(10,4)N(100,4)

2) Semplifica i calcoli dei momenti più elevati: sebbene l'aggiunta di una costante a una variabile casuale non cambi la sua varianza o la sua covarianza con un'altra variabile casuale, tuttavia, se hai una media diversa da zero e devi scrivere i calcoli dettagliati, si deve scrivere tutti i termini e dimostrare che si annullano. Se le variabili non sono significative, si risparmiano molti calcoli inutili.

3) Le variabili casuali centrate sulla loro media sono l'oggetto del Teorema del limite centrale

4) Le deviazioni dal "valore medio" sono in molti casi il problema di interesse e se tendono ad essere "sopra o sotto la media", piuttosto che i valori effettivi delle variabili casuali. "Tradurre" (visivamente e / o computazionalmente) le deviazioni sotto la media come valori negativi e le deviazioni sopra la media come valori positivi, rendono il messaggio più chiaro e più forte.

Per discussioni più approfondite, vedere anche

Quando si esegue la regressione multipla, quando è necessario centrare le variabili del predittore e quando è necessario standardizzarle?

Centrare i dati in regressione multipla

Se cerchi "dati centrati" su CV, troverai anche altri post interessanti.


@OP: Penso che questa risposta dovrebbe essere accettata.
rottweiler,

4

Inoltre, per motivi pratici, è vantaggioso centrare i dati, ad esempio durante l'addestramento delle reti neurali.

L'idea è che per formare una rete neurale è necessario risolvere un problema di ottimizzazione non convessa usando un approccio basato sul gradiente. I gradienti sono calcolati mediante backpropagation. Ora, questi gradienti dipendono dagli input e il centramento dei dati rimuove possibili distorsioni nei gradienti.

Concretamente, una media diversa da zero si riflette in un grande autovalore, il che significa che i gradienti tendono ad essere più grandi in una direzione rispetto ad altri (bias), rallentando così il processo di convergenza, portando infine a soluzioni peggiori.


1

Per aggiungere a ciò che ha detto Alecos, il che è molto buono, centrare i tuoi dati a zero è estremamente importante quando si usano le statistiche bayesiane o la regolarizzazione, poiché altrimenti i dati possono essere correlati con l'intercettazione, il che rende la regolarizzazione non fare ciò che di solito si desidera.

Rendere la media zero dei dati può diminuire molti termini off-diagonali della matrice di covarianza, quindi rende i dati più facilmente interpretabili e i coefficienti più direttamente significativi, poiché ogni coefficiente si applica più principalmente a quel fattore e agisce meno attraverso la correlazione con altri fattori.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.