Qual è la differenza tra regressione logistica e reti neurali?


32

Come possiamo spiegare la differenza tra la regressione logistica e la rete neurale a un pubblico che non ha esperienza nelle statistiche?


7
Qualcuno che non ha esperienza nelle statistiche vorrebbe davvero sapere? E cosa costituirebbe una spiegazione accettabile della differenza? Forse una metafora. Certamente nessuna delle risposte sotto (fino ad oggi), che non soddisfano del tutto il requisito "no background".
rolando2,

3
D: "Come possiamo spiegare la differenza tra la regressione logistica e la rete neurale a un pubblico che non ha esperienza nelle statistiche?" A: Per prima cosa devi dare loro uno sfondo nelle statistiche.
Firebug,

2
Non vedo alcun motivo per cui questo non dovrebbe rimanere aperto. Non abbiamo bisogno di prendere "spiegare ... nessun background nelle statistiche" così letteralmente. È comune chiedere spiegazioni che funzionerebbero per "un bambino di 5 anni" o "tua nonna". Questi sono solo modi colloquiali per chiedere risposte non tecniche (o almeno meno ). Per dirla in modo più esplicito, le risposte cercano sempre di soddisfare simultaneamente più vincoli, come precisione e brevità; qui aggiungiamo minimizzando quanto sia tecnico. Non c'è motivo per cui non possiamo avere una domanda che cerchi una spiegazione meno tecnica della differenza tra LR e ANN.
gung - Ripristina Monica

2
@mbq È divertente che a novembre 2012 sia stato possibile definire obsolete le reti neurali.
littleO

2
@littleO Questo è praticamente ancora; confronta NNs'18 con NNs'12 e vedrai che i progressi sono venuti dalla rimozione della somiglianza con le reti effettive e i neuroni effettivi, andando invece verso insiemi di operazioni algebriche con ottimizzazione stocastica. Ma certo, apparentemente il marchio NN si è dimostrato così potente che vivrà a lungo e prospererà, indipendentemente dal significato.

Risposte:


27

Presumo che tu stia pensando a quello che era un tempo, e forse sono ancora chiamati "percetroni multistrato" nella tua domanda sulle reti neurali. In tal caso, spiegherei il tutto in termini di flessibilità riguardo alla forma del confine decisionale in funzione delle variabili esplicative. In particolare, per questo pubblico, non vorrei menzionare le funzioni di collegamento / le probabilità del registro, ecc. Continuate semplicemente con l'idea che la probabilità di un evento sia prevista sulla base di alcune osservazioni.

Ecco una possibile sequenza:

  • Assicurati di sapere qual è la probabilità prevista, concettualmente parlando. Mostralo come una funzione di una variabile nel contesto di alcuni dati familiari. Spiegare il contesto decisionale che sarà condiviso dalla regressione logistica e dalle reti neurali.
  • Inizia con la regressione logistica. Dichiara che si tratta del caso lineare ma mostra la linearità del limite di decisione risultante usando un diagramma di calore o contorno delle probabilità di uscita con due variabili esplicative.
  • Nota che due classi potrebbero non essere ben separate dal confine che vedono e motivare un modello più flessibile per creare un confine più sinuoso. Se necessario, mostra alcuni dati che sarebbero ben distinti in questo modo. (Ecco perché inizi con 2 variabili)
  • Si noti che è possibile iniziare a complicare il modello lineare originale con termini extra, ad esempio quadrati o altre trasformazioni, e forse mostrare i confini che questi generano.
  • Ma poi scartali, osservando che non sai in anticipo quale dovrebbe essere il modulo di funzione e preferiresti impararlo dai dati. Proprio quando si entusiasmano per questo, notano l'impossibilità di ciò in completa generalità e suggeriscono che sei felice di presumere che dovrebbe essere almeno 'liscio' piuttosto che 'instabile', ma altrimenti determinato dai dati. (Affermare che probabilmente stavano già pensando solo a confini lisci, allo stesso modo in cui avevano parlato in prosa per tutta la vita).
  • Mostra l'output di un modello di additivo generalizzato in cui la probabilità di output è una funzione congiunta della coppia delle variabili originali anziché una vera combinazione di additivi - questo è solo a scopo dimostrativo. È importante sottolineare che lo si chiama più liscio perché è bello e generale e descrive le cose in modo intuitivo. Dimostrare il limite di decisione non lineare nella foto come prima.
  • Si noti che questo (attualmente anonimo) ha un parametro di smoothness che controlla quanto sia effettivamente fluido, fare riferimento a questo per passare come una credenza precedente sulla smoothness della funzione che trasforma le variabili esplicative nella probabilità prevista. Forse mostrare le conseguenze di diverse impostazioni di scorrevolezza sul confine della decisione.
  • Ora introduce la rete neurale come un diagramma. Fai notare che il secondo strato è solo un modello di regressione logistica, ma sottolinea anche la trasformazione non lineare che avviene nelle unità nascoste. Ricorda al pubblico che questa è solo un'altra funzione dall'input all'output che non sarà lineare nel suo limite di decisione.
  • Si noti che ha molti parametri e che alcuni di essi devono essere vincolati per prendere un limite decisionale regolare - reintrodurre l'idea di un numero che controlla la scorrevolezza come lo stesso numero (concettualmente parlando) che mantiene i parametri legati insieme e lontano da valori estremi. Si noti inoltre che più unità nascoste ha, più tipi diversi di forme funzionali può realizzare. Per mantenere l'intuizione, parla di unità nascoste in termini di flessibilità e vincolo dei parametri in termini di scorrevolezza (nonostante la sciattezza matematica di questa caratterizzazione)
  • Quindi sorprendili sostenendo che non conosci ancora la forma funzionale, quindi vuoi essere infinitamente flessibile aggiungendo un numero infinito di unità nascoste. Lascia un po 'l'impossibilità pratica di questo lavandino. Quindi osserva che questo limite può essere preso in matematica e chiedi (retoricamente) come sarebbe una cosa del genere.
  • Rispondi che sarebbe di nuovo più fluido (un processo gaussiano, come succede; Neal, 1996, ma questo dettaglio non è importante), come quello che hanno visto prima. Osserva che esiste ancora una quantità che controlla la scorrevolezza ma nessun altro parametro particolare (integrato, per coloro che si preoccupano di questo genere di cose).
  • Concludere che le reti neurali sono implementazioni particolari, implicitamente limitate, dei normali smoother, che sono le estensioni non lineari, non necessariamente additive del modello di regressione logistica. Quindi, fare diversamente, concludendo che la regressione logistica equivale a un modello di rete neurale o più regolare con il parametro di livellamento impostato su "extra extra smooth", cioè lineare.

I vantaggi di questo approccio sono che non è necessario entrare nei dettagli matematici per dare l'idea corretta. In realtà non devono già comprendere né la regressione logistica né le reti neurali per comprendere le somiglianze e le differenze.

Lo svantaggio dell'approccio è che devi fare molte foto e resistere con forza alla tentazione di cadere nell'algebra per spiegare le cose.


14

Per un riepilogo più semplice:

Regressione logistica: la forma più semplice di rete neurale, che si traduce in limiti di decisione che sono una linea retta

inserisci qui la descrizione dell'immagine

Reti neurali: un superset che include la regressione logistica e anche altri classificatori che possono generare limiti di decisione più complessi.

inserisci qui la descrizione dell'immagine

(nota: mi riferisco alla regressione logistica "semplice", senza l'assistenza di kernel integrali)

(riferimento: corsi deeplearning.ai di Andrew Ng, "La regressione logistica come rete neurale" e "Classificazione dei dati planari con un livello nascosto")


1
Da tutte le risposte attuali penso che questo sia il più realistico per spiegare i concetti a una persona senza background statistico.
Firebug,

1
Quindi un classificatore di regressione logistica logistica È una rete neurale? Questo ha molto senso.
Björn Lindqvist,

8

Prenderò letteralmente la domanda: qualcuno che non ha esperienza nelle statistiche. E non proverò a dare a quella persona un background nelle statistiche. Ad esempio, supponiamo di dover spiegare la differenza al CEO di un'azienda o qualcosa del genere.

Quindi: la regressione logistica è uno strumento per modellare una variabile categoriale in termini di altre variabili. Ti dà modo di scoprire come i cambiamenti in ciascuna delle "altre" variabili influenzano le probabilità di diversi risultati nella prima variabile. L'output è abbastanza facile da interpretare.

Le reti neurali sono un insieme di metodi per consentire a un computer di provare a imparare dagli esempi in modi che assomigliano vagamente al modo in cui gli umani apprendono le cose. Può provocare modelli che sono buoni predittori, ma di solito sono molto più opachi di quelli della regressione logistica.


5
+1 Questo è un buon primo tentativo di affrontare la sfida originale di fornire una spiegazione che potrebbe essere compresa da un laico, ma che è ragionevolmente chiara e accurata.
whuber

2
Dovrai spiegare cosa sono "categorici", "variabili", "probabilità". Inoltre, le reti neurali artificiali sono semplicemente ispirate da reti neurali reali. Il nostro cervello non può imparare dalla propagazione posteriore per quanto ne sappiamo. Quindi sì, è soprattutto un termine interessante per un concetto relativamente semplificato. Inoltre, la regressione logistica è una forma di rete neurale, quindi c'è anche quella.
Firebug,

7

Mi è stato insegnato che puoi pensare alle reti neurali (con funzioni logistiche di attivazione) come a una media ponderata delle funzioni logit, con i pesi stessi stimati. Scegliendo un gran numero di logit, puoi adattare qualsiasi modulo funzionale. C'è qualche intuizione grafica nel post del blog di Econometric Sense .


6

Le altre risposte sono fantastiche. Vorrei semplicemente aggiungere alcune immagini che mostrano che si può pensare alla regressione logistica e alla regressione logistica multi-classe (aka maxent, regressione logistica multinomiale, regressione softmax, classificatore entropia massima) come un'architettura speciale di reti neurali.

Da Sebastian Raschka, Michigan State University, su KDnuggets :

enter image description here


Qualche altra illustrazione per la regressione logistica multi-classe:

enter image description here

Un'illustrazione simile tratta da http://www.deeplearningbook.org/ capitolo 1:

enter image description here

E ancora uno dai tutorial di TensorFlow :

enter image description here

Ad esempio in Caffe , implementeresti la regressione logistica come segue :

enter image description here


2
Quindi la retro propagazione su una tale rete neurale calcola gli stessi pesi della regressione logistica?
Mitch,

1
@ Mitch - Potrei essere troppo tardi per contribuire. Una differenza fondamentale è che per una regressione logistica si usa il mle per ottenere i coefficienti. In sostanza, questa è la scelta di una specifica funzione di errore o perdita. Per una rete neurale, la funzione di perdita è una delle scelte. Quindi con la perdita corretta fn (penso dalla parte superiore della mia testa è la norma L ^ 2 standard) questo è il caso.
aginensky

Quindi la regressione logistica può essere formulata esattamente come ADALINE (rete neurale a singolo strato che utilizza la discesa gradiente batch / stocastica), con le uniche differenze chiave che la funzione di attivazione viene modificata in sigmoide anziché lineare e la funzione di previsione che cambia in> = 0,5 con 0,1 etichette anziché> = 0 con -1,1 etichette. Un'altra differenza fortemente preferita, ma facoltativa, sta cambiando la funzione di costo da RSS a funzione di costo logistico perché l'attivazione sigmoid rende RSS non convesso in modo che RSS possa rimanere bloccato nelle minimas locali.
Austin,

5

Vorrei usare un esempio di un problema complicato ma concreto che il pubblico comprende. Usa nodi nascosti le cui interpretazioni non sono addestrate, ma hanno significati particolari.

Se usi le posizioni degli scacchi (pronosticando se il bianco vincerà), potresti lasciare che gli input siano una rappresentazione della scacchiera (ignora se puoi castellare o catturare en passant, o anche di chi sia la mossa), per esempio 64×12 input binari che indicano se esiste un pezzo di ciascun tipo su ciascun quadrato.

La regressione lineare determina quanto è bello avere un cavaliere bianco su h4. Potrebbe non essere ovvio che sia buono, ma se è su h4 non è stato catturato, il che probabilmente supera altre considerazioni. La regressione lineare probabilmente recupera i valori approssimativi dei pezzi e che è meglio avere i tuoi pezzi verso il centro del tabellone e sul lato del tabellone del tuo avversario. La regressione lineare non è in grado di valutare combinazioni, ad esempio se la tua regina su b2 è improvvisamente più preziosa se il re avversario è su a1.

Una rete neurale potrebbe avere nodi nascosti per concetti, come "vantaggio materiale", "sicurezza del re nero", "controllo del centro", "entrambe le torri sul d-file", "pedone torre isolato regina" o "vescovo mobilità." Alcuni di questi possono essere stimati solo dagli input della scheda, mentre altri potrebbero dover essere in un secondo o più tardi livello nascosto. La rete neurale può usarli come input per la valutazione finale della posizione. Questi concetti aiutano un esperto a valutare una posizione, quindi una rete neurale dovrebbe essere in grado di effettuare valutazioni più accurate di una regressione lineare. Tuttavia, ci vuole più lavoro per creare la rete neurale poiché devi scegliere la sua struttura e ha molti più parametri da addestrare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.