Sì, hai ragione nel dire che c'è una mancanza di identificabilità a meno che uno dei vettori coerenti sia fisso. Ci sono alcuni motivi che non menzionano questo. Non posso parlare del motivo per cui omettono questo dettaglio, ma ecco una spiegazione di cosa si tratta e come risolverlo.
Descrizione
Diciamo che avete osservazioni e predittori , dove va da a e indica il numero / indice di osservazione. Dovrai stimare i vettori del coefficiente dimensionale .yi∈{0,1,2,…,K−1}x⊺i∈Rpi1nK pβ0,β1,…,βK−1
La funzione softmax è infatti definita come
che ha proprietà piacevoli come la differenziabilità, si somma a , ecc.softmax(z)i=exp(zi)∑K−1l=0exp(zl),
1
La regressione logistica multinomiale utilizza la funzione softmax per ogni osservazione sul vettore
i⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
che significa
⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Il problema
Tuttavia, la probabilità non è identificabile perché più raccolte di parametri daranno la stessa probabilità. Ad esempio, lo spostamento di tutti i vettori di coefficiente dello stesso vettore produrrà la stessa probabilità. Questo può essere visto se moltiplichi ciascuno il numeratore e il denominatore di ciascun elemento del vettore per una costante , nulla cambia:cexp[−x⊺ic]
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺i(β0−c)]∑K−1k=0exp[x⊺i(βk−c)]exp[x⊺i(β1−c)]∑K−1k=0exp[x⊺i(βk−c)]⋮exp[x⊺i(βK−1−c)]∑K−1k=0exp[x⊺i(βk−c)]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Risolvendolo
Il modo per risolvere questo problema è limitare i parametri. Risolvere uno di questi porterà all'identificabilità, perché non sarà più consentito spostarli tutti.
Esistono due opzioni comuni:
- impostare , che significa (menzionalo), ec=β0β0=0
- set , che significa .c=βK−1βK−1=0
Ignorandolo
A volte, tuttavia, la restrizione non è necessaria. Ad esempio, se eri interessato a formare un intervallo di confidenza per la quantità , allora questo è lo stesso di , quindi deduzione su le quantità relativamente non contano davvero. Inoltre, se l'attività è la previsione anziché l'inferenza dei parametri, le previsioni non saranno influenzate se vengono stimati tutti i vettori di coefficiente (senza vincolarne uno).β01−β21β01−c−[β21−c]