Le variabili sono spesso regolate (ad esempio standardizzate) prima di creare un modello: quando è una buona idea e quando è cattiva?


57

In quali circostanze vorresti o non vuoi ridimensionare o standardizzare una variabile prima del fitting del modello? E quali sono i vantaggi / gli svantaggi del ridimensionamento di una variabile?


Domanda molto simile qui: stats.stackexchange.com/q/7112/3748 c'è qualcos'altro che stai cercando?
Michael Bishop,

Sì, vorrei sapere per i modelli in generale piuttosto che solo per il modello lineare
Andrew,

1
Esistono molti modelli possibili e possibili usi dei modelli. Se puoi rendere le tue domande più specifiche e ridurre la sovrapposizione con altre domande, è meglio.
Michael Bishop,

Risposte:


37

La standardizzazione riguarda i pesi delle diverse variabili per il modello. Se si esegue la standardizzazione "solo" per motivi di stabilità numerica, potrebbero esserci trasformazioni che producono proprietà numeriche molto simili ma un diverso significato fisico che potrebbe essere molto più appropriato per l'interpretazione. Lo stesso vale per la centratura, che di solito fa parte della standardizzazione.

Situazioni in cui probabilmente si desidera standardizzare:

  • le variabili sono diverse quantità fisiche
  • e i valori numerici sono su scale di grandezza molto diverse
  • e non esiste alcuna conoscenza "esterna" che le variabili con variazione elevata (numerica) debbano essere considerate più importanti.

Situazioni in cui potresti non voler standardizzare:

  • se le variabili hanno la stessa quantità fisica e sono (approssimativamente) della stessa grandezza, ad es
    • concentrazioni relative di diverse specie chimiche
    • assorbanze a diverse lunghezze d'onda
    • intensità di emissione (altrimenti stesse condizioni di misurazione) a diverse lunghezze d'onda
  • non vuoi assolutamente standardizzare le variabili che non cambiano tra i campioni (canali di base) - faresti solo esplodere il rumore di misurazione (potresti invece volerli escludere dal modello)
  • se si dispone di tali variabili fisicamente correlate, il rumore di misurazione potrebbe essere più o meno lo stesso per tutte le variabili, ma l'intensità del segnale varia molto di più. Vale a dire le variabili con valori bassi hanno un rumore relativo più elevato. La standardizzazione farebbe esplodere il rumore. In altre parole, potrebbe essere necessario decidere se si desidera standardizzare il rumore relativo o assoluto.
  • Potrebbero esserci valori fisicamente significativi che è possibile utilizzare per correlare il valore misurato, ad es. Invece dell'intensità trasmessa utilizzare la percentuale dell'intensità trasmessa (trasmittanza T).

Puoi fare qualcosa "in mezzo" e trasformare le variabili o scegliere l'unità in modo che le nuove variabili abbiano ancora un significato fisico ma la variazione del valore numerico non è così diversa, ad es.

  • se lavori con topi, usa il peso corporeo g e la lunghezza in cm (intervallo di variazione previsto di circa 5 per entrambi) invece delle unità base kg e m (intervallo di variazione atteso di 0,005 kg e 0,05 m - un ordine di grandezza diverso).
  • A=log10T

Simile per la centratura:

  • Potrebbero essere disponibili (fisicamente / chimicamente / biologicamente / ...) valori di base significativi disponibili (ad es. Controlli, tende, ecc.)
  • La media è davvero significativa? (L'essere umano medio ha un'ovaia e un testicolo)

+1 e accettato a causa dell'utile elenco di quando e quando non troppo standardizzato, grazie
Andrew

6
+1 per "L'essere umano medio ha un'ovaia e un testicolo" (e anche per il resto della risposta ;-).
gung - Ripristina Monica

1
@cbeleites c'è qualche possibilità che tu possa fornire un link a una risorsa che spieghi i canali di base nel contesto che hai usato nella tua risposta? Non ho mai sentito il termine prima e sto ottenendo risultati di ricerca che non sono utili per comprendere il tuo uso del termine qui. Grazie!
Mahonya,

1
1

9

Una cosa che mi chiedo sempre prima di standardizzare è "Come interpreterò l'output?" Se esiste un modo per analizzare i dati senza trasformazione, questo potrebbe essere preferibile solo dal punto di vista dell'interpretazione.


7

In generale, non consiglio il ridimensionamento o la standardizzazione a meno che non sia assolutamente necessario. Il vantaggio o il fascino di un tale processo è che, quando una variabile esplicativa ha una dimensione fisica e una grandezza totalmente diverse dalla variabile di risposta, il ridimensionamento attraverso la divisione per deviazione standard può aiutare in termini di stabilità numerica e consente di confrontare gli effetti tra più variabili esplicative. Con la standardizzazione più comune, l'effetto variabile è la quantità di cambiamento nella variabile di risposta quando la variabile esplicativa aumenta di una deviazione standard; indica anche che il significato dell'effetto variabile (la quantità di cambiamento nella variabile di risposta quando la variabile esplicativa aumenta di un'unità) andrebbe perso, sebbene il valore statistico per la variabile esplicativa rimanga invariato. Però, quando l'interazione è considerata in un modello, il ridimensionamento potrebbe essere molto problematico anche per i test statistici a causa di una complicazione che comporta un adeguamento stocastico del ridimensionamento nel calcolo dell'errore standard dell'effetto di interazione (Preacher, 2003). Per questo motivo, il ridimensionamento per deviazione standard (o standardizzazione / normalizzazione) non è generalmente raccomandato, specialmente quando sono coinvolte interazioni.

Preacher, KJ, Curran, PJ e Bauer, DJ, 2006. Strumenti computazionali per sondare gli effetti di interazione nella regressione lineare multipla, modellazione multilivello e analisi della curva latente. Journal of Educational and Behavioural Statistics, 31 (4), 437-448.


4
Metto in dubbio la tua affermazione secondo cui la standardizzazione dei predittori non è "generalmente consigliata, specialmente quando sono coinvolte interazioni". Né Gelman e Hill, né Raudenbush e Bryk menzionano questa preoccupazione nei loro testi. Ma quando avrò la possibilità, guarderò i riferimenti che menzioni con interesse.
Michael Bishop,

Se utilizziamo l'universo di calibrazione std come variabile di ridimensionamento, il ridimensionamento non è stocastico.
Adamo,

Qualcuno può confermare se il ridimensionamento è dannoso in caso di termini di interazione? Ciò non sembra essere stato risolto nella discussione sopra.
Talik3233,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.