In che modo la regressione logistica può produrre curve che non sono funzioni tradizionali?


15

Penso di avere una confusione fondamentale su come funzionano le funzioni nella regressione logistica (o forse funzionano solo nel loro insieme).

In che modo la funzione h (x) produce la curva vista a sinistra dell'immagine?

Vedo che questo è un diagramma di due variabili, ma poi queste due variabili (x1 e x2) sono anche argomenti della funzione stessa. Conosco le funzioni standard di una mappa variabile su un output, ma questa funzione chiaramente non lo sta facendo-- e non sono del tutto sicuro del perché.

inserisci qui la descrizione dell'immagine

La mia intuizione è che la curva blu / rosa non è realmente tracciata su questo grafico ma piuttosto è una rappresentazione (cerchi e X) che viene mappata su valori nella dimensione successiva (3a) del grafico. Questo ragionamento è errato e mi sto perdendo qualcosa? Grazie per qualsiasi intuizione / intuizione.


8
Prestare attenzione alle etichette degli assi, notare che nessuno dei due è etichettato . y
Matthew Drury,

3
Quale sarebbe una "funzione tradizionale"?
whuber

@matthewDrury Lo capisco e questo spiega gli X / O 2D. Sto chiedendo da dove viene la curva tracciata
Sam,

Risposte:


19

Questo è un esempio di sovradattamento sul Coursera corso di ML da Andrew Ng , nel caso di un modello di classificazione con due caratteristiche , in cui i veri valori sono simboleggiati dai × e , e il confine decisione è precisamente su misura per l'insegnamento attraverso l'uso di termini polinomiali di alto ordine.(X1,X2)×,

Il problema che tenta di illustrare si riferisce al fatto che, sebbene la linea di decisione del confine (linea curvilinea in blu) non classifichi erroneamente alcun esempio, la sua capacità di generalizzare fuori dal set di allenamento sarà compromessa. Andrew Ng continua spiegando che la regolarizzazione può mitigare questo effetto e disegna la curva magenta come un limite di decisione meno stretto al set di allenamento e più probabile che si generalizzi.


Per quanto riguarda la tua domanda specifica:

La mia intuizione è che la curva blu / rosa non è realmente tracciata su questo grafico ma piuttosto è una rappresentazione (cerchi e X) che viene mappata su valori nella dimensione successiva (3a) del grafico.

Non c'è altezza (terza dimensione): ci sono due categorie, e ) , e gli spettacoli di linea decisionali come il modello li sta separando. Nel modello più semplice(×),

hθ(X)=g(θ0+θ1X1+θ2X2)

il limite di decisione sarà lineare.


Forse hai in mente qualcosa del genere, ad esempio:

5+2X-1.3X2-1.2X2y+1X2y2+3X2y3

inserisci qui la descrizione dell'immagine

g()X1X2× ().(1,0)

(X1,X2)×××questo post di blog su R-blogger ).

Si noti la voce in Wikipedia sul limite di decisione :

In un problema di classificazione statistica con due classi, un limite di decisione o una superficie di decisione è un'ipersuperficie che suddivide lo spazio vettoriale sottostante in due insiemi, uno per ogni classe. Il classificatore classificherà tutti i punti su un lato del confine decisionale come appartenenti a una classe e tutti quelli sull'altro lato come appartenenti all'altra classe. Un limite di decisione è la regione di uno spazio problematico in cui l'etichetta di output di un classificatore è ambigua.

[0,1]),

inserisci qui la descrizione dell'immagine


3

inserisci qui la descrizione dell'immagine

y1=hθ(X)W(Θ)Θ

Unendo più neuroni, questi iperpiani di separazione possono essere aggiunti e sottratti per finire con forme capricciose:

inserisci qui la descrizione dell'immagine

Questo si collega al teorema di approssimazione universale .


1
+1 divertiti sempre a leggere la tua risposta. Potrebbe essere ancora meglio se un piano decisionale si interseca con la trama. per mostrare alcuni sopra e alcuni sotto.
Haitao Du

Grazie mille per questo. Mi sento ancora come se mi stessi perdendo qualcosa di piccolo sulla curva stessa - è questo per dire che il confine decisionale non è in realtà "disegnato" ma piuttosto è il modo di Andrew Ng di indicare le soglie di valore di x1 & x2 che far sì che l'ipotesi sia × o ∘? Penso che parte della mia confusione derivasse da come quella curva potesse essere una funzione in primo luogo, ma ora mi rendo conto che non lo è.
Sam,

1
@AntoniParellada Questo è fantastico, vedo la distinzione ora. Grazie mille per l'aiuto.
Sam

0

Abbiamo alcuni matematici pesanti che rispondono a questa domanda. Non ho mai visto un diagramma come te raffigurato qui, con i valori per i predittori X1 e X2 e la linea del "confine decisionale" che separa i positivi previsti dai negativi previsti. (o è una mappa dei risultati previsti rispetto ai risultati effettivi?) Ma è utile --- purché tu abbia solo due predittori di interesse che desideri mappare.
Sembra che la linea magenta separi i positivi previsti dai negativi previsti, mentre la linea blu scuro include tutti i positivi. Questo di solito è il caso della regressione logistica: il modello prevede correttamente l'esito per meno del 100% dei casi (e prevede alcuni falsi positivi e / o falsi negativi).
È possibile eseguire la regressione logistica e fare in modo che la procedura produca la funzione h (x) per ogni singolo caso nel set di dati. Ciò produrrà un punteggio di propensione per ogni soggetto, da 0 a 1, che fornisce la probabilità o la probabilità prevista del risultato positivo per ciascun soggetto in base alle variabili predittive di quel soggetto, in base al modello di regressione logistica che utilizza tutti i soggetti. Si prevede che quelli con cutoff del punteggio di propensione di 0,5 o superiore abbiano il risultato, mentre quelli con un punteggio inferiore a 0,5 non hanno il risultato. Ma puoi regolare questo livello di cut-off come ritieni opportuno, ad esempio per creare un modello di previsione diagnostica di alcuni risultati basato su tutte le variabili di input immesse nell'analisi della regressione logistica. Ad esempio, è possibile impostare il limite su 0,3. È quindi possibile eseguire una tabella 2X2 di risultati previsti vs effettivi e determinare la sensibilità, la specificità, il tasso di falsi positivi e il tasso di falsi negativi del modello in base a questo livello di cutoff. Ciò fornisce ulteriori informazioni e ti libera anche dal limite di 2 variabili utilizzate nel tuo grafico. È possibile utilizzare il maggior numero di predittori che è possibile adattare ragionevolmente al modello e creare comunque una tabella 2X2 dei risultati effettivi rispetto a quelli previsti. Poiché la regressione logistica utilizza risultati categorici (sì-no), ogni cella nella tabella 2X2 è semplicemente un conteggio dei soggetti che soddisfano i criteri di riga e colonna. È possibile utilizzare il maggior numero di predittori che è possibile adattare ragionevolmente al modello e creare comunque una tabella 2X2 dei risultati effettivi rispetto a quelli previsti. Poiché la regressione logistica utilizza risultati categorici (sì-no), ogni cella nella tabella 2X2 è semplicemente un conteggio dei soggetti che soddisfano i criteri di riga e colonna. È possibile utilizzare il maggior numero di predittori che è possibile adattare ragionevolmente al modello e creare comunque una tabella 2X2 dei risultati effettivi rispetto a quelli previsti. Poiché la regressione logistica utilizza risultati categorici (sì-no), ogni cella nella tabella 2X2 è semplicemente un conteggio dei soggetti che soddisfano i criteri di riga e colonna.
Nel grafico fornito, si presume probabilmente un taglio di 0,5. Questo è il valore predefinito comune per il software. Se lo regolassi più in alto (ad esempio a 0,65), potrebbe includere tutte le O all'interno della linea ma avresti anche dei falsi positivi (X che pensa che dovrebbero essere O) che il modello avrebbe previsto il risultato di interesse. (o regola il punteggio di cutoff più basso e ha più falsi negativi).
Spero che questo possa essere d'aiuto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.