Proverò a rispondere a questa domanda attraverso la regressione logistica , uno dei classificatori lineari più semplici.
Il caso più semplice di regressione logistica è se abbiamo un'attività di classificazione binaria ( e solo una funzione di input ( ). In questo caso l'output della regressione logistica sarebbe:y∈ { 0 , 1 } )x ∈ R
y^= σ ( w ⋅ x + b )
dove
w e
B sono entrambi
scalari . L'output del modello
y^∈ [ 0 , 1 ] corrisponde alla probabilità che
X sia di classe
1 .
Cercheremo di scomporre la frase "i classificatori lineari non condividono i parametri tra caratteristiche e classi" in due parti. Esamineremo i casi di più funzionalità e più classi separatamente per vedere se la regressione logistica condivide i parametri per tali attività:
I classificatori lineari condividono i parametri tra le funzionalità?
In questo caso, per ogni esempio, y è uno scalare che accetta valori binari (come prima), mentre X è un vettore di lunghezza N (dove N è il numero di funzioni). Qui, l'output è una combinazione lineare delle funzionalità di input (ovvero una somma ponderata di queste funzionalità più i pregiudizi).
x w N x ⋅ w w i x i
y^= σ ( ∑ioN( wio⋅ xio) +b )o rσ ( w ⋅ x +b)
dove e sono vettori di lunghezza . Il prodotto produce uno scalare. Come puoi vedere dall'alto, esiste un
peso separato per ciascuna funzione di input e questi pesi sono
indipendenti in ogni caso. Da ciò possiamo concludere che non esiste
una condivisione dei parametri tra le funzionalità .
XwNx ⋅ w wioXio
I classificatori lineari condividono i parametri tra le classi?
In questo caso è uno scalare, tuttavia è un vettore di lunghezza (dove è il numero di classi). Per ovviare a questo, la regressione logistica produce essenzialmente un output separato per ciascuna delle classiOgni output è uno scalare e corrisponde alla probabilità di appartenente alla classe .y M M y j M y j ∈ [ 0 , 1 ] x jXyMMyjMyj∈ [ 0 , 1 ]Xj
y^= w ⋅ x + b ,w h e r ey^= y^1, y^2, . . . , yM
Il modo più semplice di pensare a questo è come semplici regressioni logistiche indipendenti ciascuna con un output di:M
y^j= σ ( wj⋅ x + bj)
Da quanto precede è ovvio che non sono condivisi pesi tra le diverse classi .
multi-funzione e multi-classe :
Combinando i due casi precedenti possiamo finalmente raggiungere il caso più generale di più funzionalità e più classi:
y MxNbMW(NxM)
y^= σ ( W ⋅ x + b )
dove è un vettore con una dimensione di , è un vettore con una dimensione di , è un vettore con una dimensione di e è una matrice con una dimensione di .
y^MxNbMW(N×M)
In ogni caso, i classificatori lineari non condividono alcun parametro tra caratteristiche o classi .
Per rispondere alla tua seconda domanda, i classificatori lineari hanno il presupposto che le caratteristiche debbano essere indipendenti , tuttavia non è questo che intendeva dire l'autore dell'articolo.