Supponiamo che le tue quattro categorie siano i colori degli occhi (codice): marrone (1), blu (2), verde (3), nocciola (4): eterocromia, viola, rosso, grigio, ecc. Per il momento.
In nessun modo (che posso immaginare attualmente) vorremmo dire che verde =3× marrone, o quel nocciolo =2× blu come implicano i nostri codici, anche se 3=3×1 e 4=2×2 .
Pertanto (a meno che per qualche motivo non desideriamo che tale significato scivoli nelle nostre analisi), dobbiamo usare una sorta di codifica. La codifica fittizia è un esempio, che elimina tali relazioni dalle storie statistiche che vogliamo raccontare sul colore degli occhi. La codifica degli effetti e la codifica Heckman sono altri esempi.
Aggiornamento: il tuo esempio di due variabili per quattro categorie non corrisponde alla mia comprensione del termine "codice fittizio" che in genere comporta la sostituzione di categorie k (diciamo 4) con k−1 variabili fittizie (ordinamento delle osservazioni per categoria):
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
Qui la categoria 4 è la categoria di riferimento, supponendo che nel modello sia presente una costante, ad esempio:
y=β0+β1d1+β2d2+β3d3+ε
dove è il valore medio di y quando la categoria = 4 e i termini β associati a ciascun manichino indicano la quantità y che cambia da β 0 per quella categoria.β0yβyβ0
Se non hai un termine costante ( ) nel modello, allora hai bisogno di un altro predittore "fittizio" (forse meno spesso chiamato "variabili indicatore"), in effetti i manichini si comportano come costanti modello per ogni categoria :β0
y=β1d1+β2d2+β3d3+β4d4+ε
Quindi questo potrebbe portare al problema di creare relazioni quantitative senza senso tra i codici di categoria che menziono all'inizio, ma perché non usare la codifica user12331 come suggerisci? candidato A codice utente12331:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
hai ragione nel sottolineare che si possono rappresentare 4 valori usando 2 variabili binarie (cioè due bit). Sfortunatamente, un approccio a questo (codice 1 per le categorie 1 e 2 e codice2 per le categorie 3 e 4) lascia l'ambiguità indicata dai punti interrogativi: quali valori andrebbero lì ?!
Bene, che dire di un secondo approccio, chiamalo user12331-codificante candidato B:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
Là! Nessuna ambiguità, giusto? Giusto! Sfortunatamente, tutto ciò che codifica fa è rappresentare le quantità numeriche 1–4 (o 0–3) nella notazione binaria , il che lascia intatto il problema di dare alle relazioni quantitative indesiderate le categorie.
Quindi, la necessità di un altro schema di codifica.
β