“Variabile fittizia” rispetto a “variabile indicatore” per dati nominali / categorici


15

"Variabile fittizia" e "variabile indicatore" sono termini usati frequentemente per indicare l'appartenenza a una categoria con codifica 0/1; di solito 0: non un membro della categoria, 1: membro della categoria.

Il 26/11/2014 una rapida ricerca su scholar.google.com (con virgolette allegate) rivela che "variabile fittizia" viene utilizzata in circa 318.000 articoli e "variabile indicatore" in circa 112.000 articoli. Il termine "variabile fittizia" ha anche un significato in matematica non statistica di " variabile legata " che probabilmente contribuisce al maggiore uso di "variabile fittizia" negli articoli indicizzati.

Le mie domande collegate topicamente:

  1. Questi termini sono sempre sinonimi (all'interno delle statistiche)?
  2. Uno di questi termini viene mai applicato in modo accettabile ad altre forme di codifica categoriale (ad es. Codifica effetto , codifica Helmert, ecc. )?
  3. Quali ragioni statistiche o disciplinari ci sono per preferire un termine rispetto all'altro?

4
Tendo a usare la "variabile indicatore" per condizioni binarie, ad esempio il sesso potrebbe essere codificato come malecon valori 1o 0. Se esiste una variabile categoriale con più di 2 categorie che viene quindi espansa in variabili indicatore per l'appartenenza a ciascun livello, utilizzerei "variabili fittizie" per descrivere quell'insieme di variabili indicatore.
Gregor - ripristina Monica il

2
Penso che intendi che il sesso potrebbe essere codificato come 1 o 0, il genere è un costrutto molto più complicato. (del resto anche il sesso può essere più complicato);)
Alexis,

2
punto ben ripreso, modificato a sex.
Gregor - ripristina Monica il

2
Tendo a chiamare tale variabile indicatore male, dove 1 significa vero (in questo caso maschio) e 0 significa falso (in questo caso femmina). Se uso il nome della variabile, sexdovrò cercare come ho codificato quella variabile ogni volta che torno a quel set di dati.
Maarten Buis,

4
Ho sentito varie storie di "variabili fittizie" che sono state interpretate selvaggiamente e sfortunatamente da un pubblico non tecnico come implicito disprezzo o disprezzo. Erano abbastanza imbarazzanti e convincenti da oppormi al termine. "Indicatore" è per me chiaro e diretto.
Nick Cox,

Risposte:


12

Direi che "variabile fittizia" è un modo più generale di riferirsi a (una delle) variabili numeriche che rappresentano (insieme rappresentano) un predittore categorico; pertanto il termine si applica anche a quelli utilizzati in Helmert e nella codifica degli effetti . Ciò è dovuto principalmente all'uso generico di "manichino" per indicare "stand-in". "Variabile dell'indicatore" Mi riferisco alle funzioni dell'indicatore ‡: quindi queste possono essere solo una o zero per indicare che hanno o meno delle proprietà; pertanto il termine si applica solo a quelli utilizzati nella codifica a livello di riferimento . Naturalmente alcune persone usano "codifica fittizia" per indicare "codifica a livello di riferimento"; presumibilmente hanno una definizione più limitata di "variabili fittizie", o comunque dovrebbero avere.

† E se non chiami quei "manichini", cosa fai li chiami?

‡ Così ad esempio il manichino è una variabile indicatore per quando il i ° persona u i è un uomo (un membro della serie M ): x i = 1 M ( u i ) = { 1 w h e n u iM 0 w h e n u iMxiiuiM

xi=1M(ui)={1when uiM0when uiM

dove è la funzione indicatore per l'appartenenza a M1M()M .

※ Oppure, come ha sottolineato @gung, livello significa codifica.


2
Huh ... puoi fornire link ad alcune risorse che lo motivano? Nella mia esperienza "variabile fittizia" viene usata molto per la codifica 0/1. Non sono sicuro di aver visto il manichino usato come suggerisci tu, e so che altri lo usano in senso opposto. Ad esempio, Alkharusi, H. (2012) "Variabili categoriche nell'analisi della regressione: un confronto tra codici fittizi ed effetti" International Journal of Education 4 (2): 202–210.
Alexis,

2
Non ho detto che "variabile fittizia" non viene utilizzata per la codifica 0/1, solo che può essere utilizzata in un senso più generale.
Scortchi - Ripristina Monica

1
In effetti, la stessa carta che citi dice che, usando la codifica degli effetti, "le variabili fittizie assumono i valori 1, 0 e -1". (Ovviamente penso che avrebbero dovuto chiamare "codice fittizio" qualcos'altro se lo diranno.)
Scortchi - Ripristina Monica

1
Capito ... per quanto riguarda la domanda del tuo pugnale apice, tendo a chiamarli "variabili categoriche usando la codifica XXX".
Alexis,

2
Il punto è meglio espresso da Knuth in arxiv.org/abs/math/9205211. Attribuisce l'idea a KE Iverson. In breve, non abbiamo bisogno di inventare o invocare una funzione indicatore ma seguire in discussione formale ciò che il nostro software fa per noi.
Nick Cox,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.