Ho notato mentre armeggiavo con un modello di regressione multivariata c'era un piccolo ma evidente effetto multicollinearità, misurato da fattori di inflazione di varianza, all'interno delle categorie di una variabile categoriale (ovviamente dopo aver escluso la categoria di riferimento).
Ad esempio, supponiamo di avere un set di dati con la variabile continua y e una variabile categoriale nominale x che ha k possibili valori reciprocamente esclusivi. Codifichiamo quei possibili valori come 0/1 variabili fittizie . Quindi eseguiamo un modello di regressione . I punteggi VIF per le variabili fittizie risultano essere diversi da zero. Di fatto, all'aumentare del numero di categorie, aumentano i VIF. Centrare le variabili fittizie non sembra modificare i VIF.
La spiegazione intuitiva sembra essere che la condizione reciprocamente esclusiva delle categorie all'interno della variabile categoriale causi questa leggera multicollinearità. È una scoperta banale o è un problema da considerare quando si creano modelli di regressione con variabili categoriche?