Come normalizzare i dati tra -1 e 1?

Ho visto la formula di normalizzazione min-max ma che normalizza i valori tra 0 e 1. Come potrei normalizzare i miei dati tra -1 e 1? Ho valori negativi e positivi nella mia matrice di dati.

dataset normalization

— covfefe
fonte

Se lavori in R, vedi questa discussione per alcune opzioni. In particolare, un commento sulla risposta accettata ha questa funzione in cui si imposta 'newMax' su 1 e 'newMin' su -1 ed si esegue la funzione sui propri dati

— mtreg,

Puoi trovare riferimenti a Wikipedia come segue: en.wikipedia.org/wiki/Normalization_(statistics)

— salem,

Esempio Javascript, preso da qui . funzione convertRange (value, r1, r2) {return (value - r1 [0]) * (r2 [1] - r2 [0]) / (r1 [1] - r1 [0]) + r2 [0]; } convertRange (328.17, [300.77, 559.22], [1, 10]); >>> 1.9541497388276272

— Giuseppe Canale

@covfefe se sei ancora in giro potresti voler accettare una delle risposte

— Simone

x^{'} = \frac{x - min x}{max x - min x}

$x' = \frac{x - \min{x}}{\max{x} - \min{x}}$

x

$x$

[0, 1]

$[0,1]$

Per normalizzare in puoi usare: $[-1,1]$

x^{″} = 2 \frac{x - min x}{max x - min x} - 1

$x'' = 2\frac{x - \min{x}}{\max{x} - \min{x}} - 1$

In generale, puoi sempre ottenere una nuova variabile $x'''$ in $[a,b]$ :

x^{‴} = (b - a) \frac{x - min x}{max x - min x} + a

$x''' = (b-a)\frac{x - \min{x}}{\max{x} - \min{x}} + a$

— Simone
fonte

Onestamente non ho citazioni per questo. È solo una trasformazione lineare di una variabile casuale. Dai un'occhiata all'effetto delle trasformazioni lineari sul supporto di una variabile casuale.

— Simone,

-1

Ho testato su dati generati casualmente e

X_{o u t} = (b - a) \frac{X_{i n} - min X_{i n}}{max X_{i n} - min X_{i n}} + a

$\begin{equation} X_{out} = (b-a)\frac{X_{in} - \min{X_{in}}}{\max{X_{in}} - \min{X_{in}}} + a \end{equation}$

non conserva la forma della distribuzione. Mi piacerebbe davvero vedere la corretta derivazione di questo usando le funzioni di variabili casuali.

L'approccio che ha preservato la forma per me è stato l'utilizzo di:

X_{o u t} = \frac{X_{i n} - μ_{i n}}{σ_{i n}} \cdot σ_{o u t} + μ_{o u t}

$\begin{equation} X_{out} = \frac{X_{in} - \mu_{in}}{\sigma_{in}} \cdot \sigma_{out} + \mu_{out} \end{equation}$

dove

σ_{o u t} = \frac{b - a}{6}

$\begin{equation} \sigma_{out} = \frac{b-a}{6} \end{equation}$

(Ammetto che usare 6 è un po ' sporco ) e

μ_{o u t} = \frac{b + a}{2}

$\begin{equation} \mu_{out} = \frac{b+a}{2} \end{equation}$

$a$ e è l'intervallo desiderato; così come per la domanda originale sarebbe e . $b$ $a=-1$ $b=1$

Sono arrivato al risultato da questo ragionamento

Z_{o u t} = Z_{i n}

$\begin{equation} Z_{out} = Z_{in} \end{equation}$

\frac{X_{o u t} - μ_{o u t}}{σ_{o u t}} = \frac{X_{i n} - μ_{i n}}{σ_{i n}}

$\begin{equation} \frac{X_{out} - \mu_{out}}{\sigma_{out}} = \frac{X_{in} - \mu_{in}}{\sigma_{in}} \end{equation}$

— AL Verminburger
fonte

Sei sicuro che ciò garantisca che i dati trasformati rimarranno entro i limiti? In R, provare: set.seed(1); scale(rnorm(1000))*.333. Ottengo un massimo di 1.230871. Il tuo metodo sembra essere solo una modifica alla standardizzazione dei dati, piuttosto che normalizzarli come richiesto. Si noti che la domanda non richiede un metodo che preservi la forma della distribuzione (che sarebbe uno strano requisito per la normalizzazione).

— gung - Ripristina Monica

Non sono sicuro di come la trasformazione originale potrebbe non riuscire a preservare la forma dei dati. Equivale a sottrarre una costante e quindi a dividerla per una costante, che è ciò che fa la tua proposta e che non cambia la forma dei dati. La tua proposta presuppone che tutti i dati rientrino in tre deviazioni standard della media, il che può essere in qualche modo ragionevole con campioni piccoli, distribuiti approssimativamente normalmente, ma non con campioni grandi o non normali.

— Noah,

@Noah Non equivale a sottrarre e dividere per costanti, perché il minimo e il massimo dei dati sono variabili casuali. In effetti, per la maggior parte delle distribuzioni sottostanti sono piuttosto variabili - più variabili rispetto al resto dei dati - per cui usarle per qualsiasi forma di standardizzazione di solito non è una buona idea. In questa risposta non è chiaro ciò che e media o come potrebbero essere correlati ai dati.

a

$a$

b

$b$

— whuber

@whuber true, ma intendevo che in un determinato set di dati (ovvero, trattando i dati come fissi), sono costanti, allo stesso modo la media del campione e la funzione di deviazione standard del campione come costanti durante la standardizzazione di un set di dati. La mia impressione era che OP volesse normalizzare un set di dati, non una distribuzione.

— Noah,

@Noah ho avuto la stessa impressione, ma credo che il presente post possa rispondere a un'interpretazione diversa.

— whuber