centrare e ridimensionare variabili fittizie

13

Ho un set di dati che contiene sia variabili categoriali che variabili continue. Mi è stato consigliato di trasformare le variabili categoriali in variabili binarie per ogni livello (ad esempio, A_level1: {0,1}, A_level2: {0,1}) - Penso che alcuni abbiano chiamato queste "variabili fittizie".

Detto questo, sarebbe fuorviante quindi centrare e ridimensionare l'intero set di dati con le nuove variabili? Sembra che perderei il significato "on / off" delle variabili.

Se è fuorviante, significa che dovrei centrare e ridimensionare le variabili continue separatamente e quindi aggiungerle nuovamente al mio set di dati?

TIA.

categorical-data data-transformation centering

— user2300643
fonte

1

Se è accettabile o ragionevole centrare e / o ridimensionare variabili fittizie dipende dall'applicazione, dall'analisi che si sta pianificando e da considerazioni specifiche dell'attività. Quindi non esiste un'unica risposta corretta. Nella maggior parte dei casi, formulazione approssimativa, spesso va bene farlo con variabili fittizie predittive; è spesso una cattiva idea farlo con variabili fittizie di risposta o in metodi multivariati come il clustering o l'analisi dei fattori.

— ttnphns,

13

Quando si costruiscono variabili fittizie da utilizzare nelle analisi di regressione, ogni categoria in una variabile categoriale tranne una dovrebbe ottenere una variabile binaria. Quindi dovresti avere ad esempio A_level2, A_level3 ecc. Una delle categorie non dovrebbe avere una variabile binaria e questa categoria fungerà da categoria di riferimento. Se non si omette una delle categorie, le analisi di regressione non verranno eseguite correttamente.

Se si utilizza SPSS o R, non credo che il ridimensionamento e il centraggio dell'intero set di dati costituiranno generalmente un problema poiché tali pacchetti software spesso interpretano come variabili fattori con solo due livelli, ma può dipendere dai metodi statistici specifici utilizzati . In ogni caso, non ha senso ridimensionare e centrare le variabili binarie (o categoriche), quindi è necessario centrare e ridimensionare le variabili continue solo se è necessario.

— JONB
fonte

2

La mia forte sensazione è che l'unica parte della risposta che sta veramente rispondendo alla domanda del PO è quell'ultima frase - una parte che è inspiegabile. Dici di non ridimensionarli ma non spieghi il perché. Nel frattempo, l'argomento non è molto semplice.

— ttnphns,

Questo è solo un modo per codificare le variabili categoriali. Non ho tempo di scrivere una risposta completa, ma la ricerca di "contrasti" potrebbe essere d'aiuto. Una risposta pertinente è stats.stackexchange.com/questions/60817/…

— user20637

3

Se stai usando R e ridimensiona le variabili fittizie o le variabili che hanno 0 o 1 solo su una scala compresa tra 0 e 1, allora non ci saranno cambiamenti sui valori di queste variabili, il resto delle colonne verrà ridimensionato.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

— Shekhar Sahu
fonte

Suggerimento interessante. Grazie per aver condiviso. È passato un po 'di tempo da quando l'ho chiesto, ma è bello vedere che posso ancora imparare da questi vecchi post.

— user2300643

2

Il punto di centrare la media nella regressione è rendere l'intercettazione più interpretabile. Cioè, se intendi centrare tutte le variabili nel tuo modello di regressione, allora l'intercetta (chiamata Costante nell'output SPSS) equivale alla media generale complessiva per la tua variabile di risultato. Quale può essere conveniente nell'interpretazione del modello finale.

Per quanto riguarda la centratura delle variabili fittizie, ho appena avuto una conversazione con un mio professore sulla centratura delle variabili fittizie in un modello di regressione (nel mio caso un modello multilivello con design a blocchi randomizzato con 3 livelli) e il mio take-away era che significa centrare il le variabili fittizie in realtà non cambiano l'interpretazione dei coefficienti di regressione (tranne per il fatto che la soluzione è completamente standardizzata). Di solito, non è necessario in regressione interpretare il valore centrato della media a livello di unità effettiva - solo i coefficienti. E questo essenzialmente non cambia - per la maggior parte. Ha detto che cambia leggermente perché è standardizzata e, per i manichini, non è così intuitiva da capire.

Avvertenza: questa è stata la mia comprensione quando ho lasciato l'ufficio del mio professore. Ovviamente avrei potuto sbagliarmi.

— Katie
fonte