Qual è la differenza tra normalizzazione e standardizzazione?


118

Al lavoro ne discutevamo perché il mio capo non ha mai sentito parlare di normalizzazione. Nell'algebra lineare, la normalizzazione sembra riferirsi alla divisione di un vettore per la sua lunghezza. E nelle statistiche, la standardizzazione sembra riferirsi alla sottrazione di una media che poi si divide per la sua SD. Ma sembrano intercambiabili anche con altre possibilità.

Quando crei una sorta di punteggio universale, che costituisce metriche diverse, con mezzi e SD diversi, vorresti normalizzare, standardizzare o qualcos'altro? Una persona mi ha detto che è solo una questione di prendere ogni metrica e dividerli per la loro SD, individualmente. Quindi sommando i due. Ciò si tradurrà in un punteggio universale che può essere utilizzato per giudicare entrambe le metriche.2

Ad esempio, supponiamo che tu abbia il numero di persone che prendono la metropolitana per lavorare (a New York) e il numero di persone che sono andate a lavorare (a New York).

Auto y

Trainx
Cary

mean(x)mean(y)

mean(x)=8,000,000

mean(y)=800,000

xyxy

Qualsiasi articolo o capitolo di libri per riferimento sarebbe molto apprezzato. GRAZIE!

Inoltre, ecco un altro esempio di ciò che sto cercando di fare.

Immagina di essere un decano del college e stai discutendo i requisiti di ammissione. Potresti desiderare studenti con almeno un certo GPA e un certo punteggio del test. Sarebbe bello se fossero entrambi sulla stessa scala perché allora potresti semplicemente aggiungere i due insieme e dire: "chiunque abbia almeno un 7.0 può essere ammesso". In questo modo, se un potenziale studente ha un GPA 4.0, potrebbe ottenere un punteggio di test 3.0 e comunque essere ammesso. Inversamente, se qualcuno avesse un GPA 3.0, potrebbe comunque essere ammesso con un punteggio di prova 4.0.

Ma non è così. L'ACT è su una scala di 36 punti e la maggior parte degli GPA è su 4.0 (alcuni sono 4.3, sì fastidiosi). Dato che non posso semplicemente aggiungere un ACT e un GPA per ottenere una sorta di punteggio universale, come posso trasformarli in modo che possano essere aggiunti, creando così un punteggio di ammissione universale. E poi come Decano, potrei semplicemente accettare automaticamente chiunque abbia un punteggio superiore a una certa soglia. O anche accettare automaticamente tutti il ​​cui punteggio è tra i primi 95% .... quel genere di cose.

Sarebbe normalizzazione? standardizzazione? o semplicemente dividendo ciascuno per la loro SD e poi sommando?


4
L'ultima parte della domanda sembra che tu stia cercando di creare una valutazione da più attributi. Per ulteriori informazioni, consultare la domanda e le risposte all'indirizzo stats.stackexchange.com/q/9137 e stats.stackexchange.com/q/9358 . In particolare, si noti che né la normalizzazione né la standardizzazione hanno alcuna rilevanza diretta per il problema del Decano.
whuber

Risposte:


65

La normalizzazione ridimensiona i valori in un intervallo di [0,1]. Ciò potrebbe essere utile in alcuni casi in cui tutti i parametri devono avere la stessa scala positiva. Tuttavia, i valori anomali del set di dati vengono persi.

Xchanged=XXminXmaxXmin

μσ

Xchanged=Xμσ

Per la maggior parte delle applicazioni si consiglia la standardizzazione.


7
Potresti spiegare perché "gli outlier dal set di dati vengono persi" durante la normalizzazione dei dati?
studente

3
i valori anomali in questo caso di ridimensionamento influirebbero sul risultato e non andrebbero persi.
Feras,

@learner Immagina di avere [1 2 3 4 5 1000 2 4 5 2000 ...]. Il valore normalizzato di 1000 punti dati diventerebbe più piccolo perché abbiamo 2000
GHIACCIO FREDDO

3
@COLDICE Penso che dipenda dall'algoritmo di normalizzazione che usi. Ad esempio, se hai diviso ogni numero nel tuo set di dati per il valore massimo (ad es. 2000), essi vanno da 0 a 1 e non influiscono sui valori anomali.
Alisson,

3
Penso che ciò non influisca affatto sugli outlier, altrimenti ciò non avverrebbe nei software di rilevamento delle anomalie.
Alisson,

44

Nel mondo degli affari, "normalizzazione" significa in genere che l'intervallo di valori è "normalizzato da 0,0 a 1,0". "Standardizzazione" significa in genere che l'intervallo di valori è "standardizzato" per misurare quante deviazioni standard il valore è dalla sua media. Tuttavia, non tutti sarebbero d'accordo. È meglio spiegare le tue definizioni prima di usarle.

In ogni caso, la tua trasformazione deve fornire qualcosa di utile.

Nell'esempio del tuo treno / auto, guadagni qualcosa sapendo quante deviazioni standard dalla loro media, ogni valore risiede? Se tracciate quelle misure "standardizzate" l'una contro l'altra come trama xy, potreste vedere una correlazione (vedere il primo grafico a destra):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Se è così, questo significa qualcosa per te?

Per quanto riguarda il tuo secondo esempio, se vuoi "equiparare" un GPA da una scala a un'altra scala, cosa hanno in comune queste scale? In altre parole, come potresti trasformare questi minimi in equivalenti e i massimi in equivalenti?

Ecco un esempio di "normalizzazione":

Link di normalizzazione

Una volta ottenuti i punteggi GPA e ACT in una forma intercambiabile, ha senso ponderare i punteggi ACT e GPA in modo diverso? In tal caso, quale ponderazione significa qualcosa per te?

Modifica 1 (05/03/2011) ========================================= =

In primo luogo, vorrei controllare i collegamenti suggeriti da whuber sopra. La linea di fondo è che, in entrambi i tuoi problemi a due variabili, dovrai trovare una "equivalenza" di una variabile rispetto all'altra. E un modo per differenziare una variabile dall'altra. In altre parole, anche se puoi semplificarlo in una semplice relazione lineare, avrai bisogno di "pesi" per differenziare una variabile dall'altra.

Ecco un esempio di un problema con due variabili:

Utilità multi-attributo

Dall'ultima pagina, se si può dire che il traffico ferroviario standardizzato U1(x)rispetto al traffico automobilistico standardizzato U2(y)è "additivamente indipendente", allora si potrebbe essere in grado di cavarsela con una semplice equazione come:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Dove k1 = 0,5 significa che sei indifferente al traffico standardizzato di auto / treno. Un k1 più elevato significherebbe che il traffico ferroviario U1(x)è più importante.

Tuttavia, se queste due variabili non sono "additivamente indipendenti", dovrai usare un'equazione più complicata. Una possibilità è mostrata a pagina 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

In entrambi i casi, dovrai inventarti un'utilità U(x, y)che abbia senso.

Gli stessi concetti generali di ponderazione / confronto valgono per il tuo problema GPA / ACT. Anche se sono "normalizzati" piuttosto che "standardizzati".

Un ultimo numero. So che non ti piacerà, ma la definizione del termine "additivamente indipendente" si trova a pagina 4 del seguente link. Ho cercato una definizione meno geniale, ma non sono riuscito a trovarne una. Potresti guardarti intorno per trovare qualcosa di meglio.

Additivamente indipendente

Citando il link:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Come suggerito all'inizio di questa risposta, se traccia un traffico ferroviario standardizzato rispetto al traffico automobilistico standardizzato su un diagramma xy, potresti vedere una correlazione. Se è così, allora sei bloccato con l'equazione di utilità non lineare sopra o qualcosa di simile.


Ok. Hai ragione. È meglio spiegare le mie definizioni. E ripensandoci, non sono le definizioni di cui ho bisogno. Quello di cui ho bisogno è il metodo appropriato per creare 1 punteggio universale. Che si tratti di un punteggio di ammissione o di un punteggio di traffico. Come si fa a creare una metrica universale che è una funzione di altre variabili, che sono state trasformate per metterle entrambe su una scala simile? E non preoccuparti dei pesi. Capisco che anche solo la somma semplice sta pesando le metriche 1/1. Ma questo è meno preoccupante per me in questo momento.
Chris,

@ Chris, ho aggiunto la mia risposta come una modifica sopra.
bill_080,

2
(+1) Buona modifica. @Chris: potresti essere interessato alle note di una breve serie di diapositive di PowerPoint qui : questa è una presentazione sull'argomento che ho dato a persone non tecniche. Lo cito perché contiene alcune illustrazioni e indicazioni su come "creare una metrica universale".
whuber

Il link Utilità multi-attributo è morto, l'articolo può essere trovato qui web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/…
mgilbert

6

La risposta è semplice, ma non ti piacerà: dipende. Se valuti 1 deviazione standard da entrambi i punteggi allo stesso modo, la standardizzazione è la strada da percorrere (nota: in effetti, stai studiando , perché stai dividendo per una stima della DS della popolazione).

Altrimenti, è probabile che la standardizzazione sia un buon primo passo, dopo di che puoi dare più peso a uno dei punteggi moltiplicando per un fattore ben scelto.


Quindi, stai dicendo almeno di iniziare con quello che ho descritto come standardizzazione (studentising), quindi adattare i pesi per adattarli al meglio ai dati / allo scenario? Questo ha senso. Semplicemente non capisco perché dovrei dividere per la SD. E nella ricerca ho trovato qualcosa chiamato Differenza media standardizzata ... e mi sono appena confuso. Sembra che dovrebbe essere semplice. O li metti entrambi sulla scala A, oppure uno sulla stessa scala dell'altro, quindi somma. Ma no. Invece sono confuso e tutto il Wiki è uscito per il momento.
Chris,

0

Per risolvere il problema GPA / ACT o treno / auto, perché non utilizzare la media geometrica ?

n√ (a1 × a2 × ... × an)

Dov'è a*il valore dalla distribuzione ed nè l'indice della distribuzione.

Questa media geometrica si assicura che ogni valore disponga la sua scala, contribuendo ugualmente al valore medio. Vedi di più su Geometric Mean


3
Non vedo che la media geometrica sarebbe appropriata per le situazioni descritte dall'OP.
gung

1
Sono d'accordo con Gung. La media geometrica non è una soluzione a questo problema.
Ferdi,

La media geometrica impedirà la riduzione del contributo di numeri più piccoli. Quindi può essere un'alternativa alla standardizzazione o alla normalizzazione quando si devono combinare scale disuguali.
rso

0

Nel mio campo, la scienza dei dati, la normalizzazione è una trasformazione dei dati che consente un facile confronto dei dati a valle. Esistono molti tipi di normalizzazioni. Il ridimensionamento è uno di questi. Puoi anche registrare i dati o fare qualsiasi altra cosa tu voglia. Il tipo di normalizzazione che utilizzi dipende dal risultato desiderato, poiché tutte le normalizzazioni trasformano i dati in qualcos'altro.

Ecco alcuni di quelli che considero esempi di normalizzazione. Normalizzazione in scala Normalizzazione quantile

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.