Normalizzazione vs. ridimensionamento


46

Qual è la differenza tra "Normalizzazione" dei dati e "Ridimensionamento" dei dati? Fino ad ora ho pensato che entrambi i termini si riferissero allo stesso processo, ma ora mi rendo conto che c'è qualcosa di più che non conosco / capisco. Inoltre, se esiste una differenza tra normalizzazione e ridimensionamento, quando dovremmo usare la normalizzazione ma non il ridimensionamento e viceversa?

Si prega di elaborare con alcuni esempi.


6
Normalizzazione significa in genere trasformare le tue osservazioni in f ( x ) (dove f è una funzione misurabile, in genere continua) in modo che appaiano normalmente distribuite . Alcuni esempi di trasformazioni per normalizzare i dati sono trasformazioni di potenza . Il ridimensionamento significa semplicemente f ( x ) = c x , c R , cioè moltiplicando le tue osservazioni per una costante c che cambia la scala (ad esempio da nanometri a chilometri). xf(x)ff(x)=cxcRc


la normalizzazione è anche un metodo di ridimensionamento, come la standardizzazione

Non ho abbastanza reputazione sulle statistiche per rispondere. Penso che il titolo della tua domanda dovrebbe essere Normalizzazione vs. Standardizzazione, dal momento che questi due sono diversi approcci di riscalamento. La normalizzazione sta riscalando i valori nell'intervallo 0 e 1 mentre la standardizzazione sta spostando la distribuzione per avere 0 come media e 1 come deviazione standard.
Hamid Heydarian,

Risposte:


24

Non sono a conoscenza di una definizione "ufficiale" e anche se esiste, non dovresti fidarti di essa poiché vedrai che viene utilizzata in modo incoerente nella pratica.

Detto questo, il ridimensionamento nelle statistiche di solito significa una trasformazione lineare della forma .f(x)=ax+b

La normalizzazione può significare applicare una trasformazione in modo che i dati trasformati vengano distribuiti in modo approssimativamente normale, ma può anche significare semplicemente mettere variabili diverse su una scala comune. La standardizzazione, che significa sottrarre la media e dividere per la deviazione standard, è un esempio dell'uso successivo. Come puoi vedere è anche un esempio di ridimensionamento. Un esempio per il primo sarebbe prendere il registro per i dati distribuiti lognormali.

Ma quello che dovresti portare via è che quando lo leggi dovresti cercare una descrizione più precisa di ciò che l'autore ha fatto. A volte puoi ottenerlo dal contesto.


15

Il ridimensionamento è una scelta personale per far sentire i numeri giusti, ad esempio tra zero e uno o uno e cento. Ad esempio, la conversione dei dati forniti in millimetri in metri perché è più conveniente o imperiale in metrica.

Mentre la normalizzazione riguarda il ridimensionamento a uno "standard" esterno - la norma locale - come la rimozione del valore medio e la divisione per la deviazione standard del campione, ad esempio in modo che i dati ordinati possano essere confrontati con un normale cumulativo o un Poisson cumulativo, oppure qualunque cosa.

Quindi, se un docente o un manager desidera che i dati siano "normalizzati", significa "ridimensionarli a modo mio " ;-)


10

Non so se intendi esattamente questo, ma vedo molte persone che si riferiscono alla normalizzazione che significa standardizzazione dei dati. La standardizzazione sta trasformando i tuoi dati in modo che abbia media 0 e deviazione standard 1:

x <- (x - mean(x)) / sd(x)

Vedo anche persone che usano il termine Normalizzazione per il ridimensionamento dei dati, come nel trasformare i dati in un intervallo 0-1:

x <- (x - min(x)) / (max(x) - min(x))

Può essere fonte di confusione!

Entrambe le tecniche hanno i loro pro e contro. Quando si ridimensiona un set di dati con troppi valori anomali, i dati non anomali potrebbero finire in un intervallo molto piccolo. Quindi, se il tuo set di dati ha troppi valori anomali, potresti prendere in considerazione l'idea di standardizzarlo. Tuttavia, quando lo fai ti ritroverai con dati negativi (a volte non lo desideri) e dati illimitati (potresti non volerlo neanche).


3

Centrare significa sottrarre la media della variabile casuale dalle variabili. Cioè x -xi

Scalellare significa dividere la variabile per la sua deviazione standard. Cioè xi / s

La combinazione dei due si chiama normalizzazione o standization. Cioè x-xi / s


La domanda è un duplicato.
Michael Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.