Cosa significa "condividere i parametri tra funzionalità e classi"


Risposte:


22

Proverò a rispondere a questa domanda attraverso la regressione logistica , uno dei classificatori lineari più semplici.

Il caso più semplice di regressione logistica è se abbiamo un'attività di classificazione binaria ( e solo una funzione di input ( ). In questo caso l'output della regressione logistica sarebbe:y{0,1})xR

y^=σ(wx+b)
dove w e b sono entrambi scalari . L'output del modello y^[0,1] corrisponde alla probabilità che x sia di classe 1 .

Cercheremo di scomporre la frase "i classificatori lineari non condividono i parametri tra caratteristiche e classi" in due parti. Esamineremo i casi di più funzionalità e più classi separatamente per vedere se la regressione logistica condivide i parametri per tali attività:

I classificatori lineari condividono i parametri tra le funzionalità?

In questo caso, per ogni esempio, y è uno scalare che accetta valori binari (come prima), mentre x è un vettore di lunghezza N (dove N è il numero di funzioni). Qui, l'output è una combinazione lineare delle funzionalità di input (ovvero una somma ponderata di queste funzionalità più i pregiudizi).

x w N xw w i x i

y^=σ(iN(wixi)+b)orσ(wx+b)
dove e sono vettori di lunghezza . Il prodotto produce uno scalare. Come puoi vedere dall'alto, esiste un peso separato per ciascuna funzione di input e questi pesi sono indipendenti in ogni caso. Da ciò possiamo concludere che non esiste una condivisione dei parametri tra le funzionalità .xwNxw wixi

I classificatori lineari condividono i parametri tra le classi?

In questo caso è uno scalare, tuttavia è un vettore di lunghezza (dove è il numero di classi). Per ovviare a questo, la regressione logistica produce essenzialmente un output separato per ciascuna delle classiOgni output è uno scalare e corrisponde alla probabilità di appartenente alla classe .y M M y j M y j[ 0 , 1 ] x jxyMMyjMyj[0,1]xj

y^=wx+b,wherey^=y^1,y^2,...,yM

Il modo più semplice di pensare a questo è come semplici regressioni logistiche indipendenti ciascuna con un output di:M

y^j=σ(wjx+bj)

Da quanto precede è ovvio che non sono condivisi pesi tra le diverse classi .

multi-funzione e multi-classe :

Combinando i due casi precedenti possiamo finalmente raggiungere il caso più generale di più funzionalità e più classi:

y MxNbMW(NxM)

y^=σ(Wx+b)
dove è un vettore con una dimensione di , è un vettore con una dimensione di , è un vettore con una dimensione di e è una matrice con una dimensione di .y^MxNbMW(N×M)

In ogni caso, i classificatori lineari non condividono alcun parametro tra caratteristiche o classi .

Per rispondere alla tua seconda domanda, i classificatori lineari hanno il presupposto che le caratteristiche debbano essere indipendenti , tuttavia non è questo che intendeva dire l'autore dell'articolo.


1
Bella spiegazione. :)
joydeep bhattacharjee,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.