Dovresti mai standardizzare le variabili binarie?


25

Ho un set di dati con un set di funzionalità. Alcuni di essi sono binari attivo o attivato, inattivo o inattivo) e il resto ha un valore reale, ad esempio .(1=0=4564.342

Voglio fornire questi dati a un algoritmo di apprendimento automatico, quindi ho eseguito il punteggio tutte le funzionalità con valori reali. Le ottengo tra gli intervalli e approssimativamente. Ora anche i valori binari hanno un punteggio , quindi gli zeri diventano e quelli diventano .z3-2z-0,2220,5555

Ha senso standardizzare le variabili binarie come questa?

Risposte:


14

La standardizzazione delle variabili binarie non ha alcun senso. I valori sono arbitrari; non significano nulla in sé e per sé. Potrebbe esserci una logica per la scelta di alcuni valori come 0 e 1, rispetto ai problemi di stabilità numerica, ma questo è tutto.


e se fossero tra 0-100. Come ho detto, significano cose come "volto riconosciuto" e "volto non riconosciuto", e 0-100 indica il livello di confidenza. Ha senso z-score che?
siamii,

Il tuo esempio 0-100 suona come una valutazione ordinale. Ci sono un po 'di dettagli su come affrontare al meglio quella situazione ed è stato discusso un po' sul CV. Cerca sul tag ordinale per saperne di più.
gung - Ripristina Monica

bene, il problema è che solo alcune delle variabili sono 0-100. Altri sono ad esempio -400 - +400
siamii,

Qual è il problema con quello? È un problema di stabilità numerica?
gung - Ripristina Monica

forse, mi suggerisci di non fare un punteggio z?
siamii,

14

Una variabile binaria con valori 0, 1 può (di solito) essere ridimensionata in (valore - media) / SD, che è presumibilmente il tuo punteggio z.

Il vincolo più ovvio è che se ti capita di ottenere tutti gli zeri o tutti quelli che si collegano in modo cieco SD significherebbe che il punteggio z è indeterminato. Esiste un caso per assegnare anche zero in quanto valore - media è identicamente zero. Ma molte cose statistiche non avranno molto senso se una variabile è davvero una costante. Più in generale, tuttavia, se la SD è piccola, c'è più rischio che i punteggi siano instabili e / o non ben determinati.

Un problema nel dare una risposta migliore alla tua domanda è proprio quale "algoritmo di apprendimento automatico" stai prendendo in considerazione. Sembra che sia un algoritmo che combina i dati per diverse variabili, e quindi di solito ha senso fornirli su scale simili.

(Più tardi) Mentre il poster originale aggiunge commenti uno per uno, la loro domanda si sta trasformando. Continuo a considerare che (value - mean) / SD ha senso (cioè non è privo di senso) per le variabili binarie fintanto che la SD è positiva. Tuttavia, la regressione logistica è stata in seguito denominata come applicazione e per questo non vi è alcun guadagno teorico o pratico (e in effetti una perdita di semplicità) a qualcosa di diverso dall'immissione in variabili binarie come 0, 1. Il software dovrebbe essere in grado di affrontare bene quella; in caso contrario, abbandonare quel software a favore di un programma che può. In termini di domanda del titolo: can, yes; dovrebbe, no.


3
La risposta breve è che non significa nulla di diverso e non vedo alcun motivo per cui cambiare 0, 1 in punteggi z aiuterà qualcosa in questa situazione. Per convincerti, provalo in entrambi i modi e vedi che nulla di importante cambia.
Nick Cox,

3
Al contrario, penso che la maggior parte delle persone userebbe 0, 1 qui.
Nick Cox,

1
Quando si esegue la regressione logistica, il software eseguirà quasi sicuramente la standardizzazione sotto il cofano (per ottenere migliori proprietà numeriche). Quindi è una buona idea mantenere l'indicatore binario espresso in modo significativo. La standardizzazione non sembra né buona né utile.
whuber

1
Qualsiasi metodo di apprendimento automatico che richiede di "standardizzare" i predittori binari è sospetto.
Frank Harrell,

2
Poiché è la tua implementazione, nessun altro ha basi per darti una risposta obiettiva! È necessario esaminare il modo in cui il software tratta i dati al fine di decidere se la standardizzazione preliminare abbia senso.
whuber

3

Un bell'esempio in cui può essere utile standardizzare in modo leggermente diverso è dato nella sezione 4.2 di Gelman e Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Questo è principalmente quando l'interpretazione dei coefficienti è di interesse, e forse quando non ci sono molti predittori.

Lì standardizzano una variabile binaria (con proporzione uguale di 0 e 1) per

X-μX2σX,
σ±0.5X=0X=1σX

Spiega "con uguale proporzione di 0 e 1" poiché le variabili binarie che vedo raramente sono così.
Nick Cox,

Non penso che la proporzione farà davvero la differenza, la usano solo per rendere l'esempio più pulito.
Gosset's Student,

1

Cosa vuoi standardizzare, una variabile casuale binaria o una proporzione?

Y:SRY{0,1}

X[0,1]XR+


0

Nella regressione logistica, le variabili binarie possono essere standardizzate per combinarle con vars continui quando si desidera dare a tutti loro un precedente non informativo come N ~ (0,5) o Cauchy ~ (0,5). La standardizzazione è la seguente: Prendi il conteggio totale e dai

1 = proporzione di 1

0 = 1 - proporzione di 1.

-----

Modifica: in realtà non avevo affatto ragione, non si tratta di una standardizzazione ma di uno spostamento da centrare a 0 e differire di 1 nella condizione inferiore e superiore, diciamo che una popolazione è del 30% con la società A e del 70% altro, possiamo definire la variabile "Azienda A" centrata per assumere i valori -0.3 e 0.7.


Non è possibile dare un senso a questo come standardizzazione.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.