Perché non scaricare le reti neurali e l'apprendimento profondo? [chiuso]


25

Problema fondamentale con l'apprendimento profondo e le reti neurali in generale.

  1. Le soluzioni che si adattano ai dati di allenamento sono infinite. Non abbiamo un'equazione matematica precisa che è soddisfatta da una sola e che possiamo dire generalizza al meglio. Semplicemente non sappiamo quale generalizza meglio.

  2. L'ottimizzazione dei pesi non è un problema convesso, quindi non sappiamo mai di finire con un minimo globale o locale.

Quindi perché non scaricare le reti neurali e cercare un modello ML migliore? Qualcosa che capiamo e qualcosa che è coerente con una serie di equazioni matematiche? Linear e SVM non presentano questi inconvenienti matematici e sono pienamente coerenti con una serie di equazioni matematiche. Perché non pensare solo sulle stesse linee (non è necessario che sia lineare però) e proporre un nuovo modello ML migliore di Linear e SVM e delle reti neurali e del deep learning?


37
Se lo trovi, la gente lo farà.
Matthew Drury,

23
"Perché non venire con ...?" Non crederesti quanti ricercatori sono impegnati a cercare di fare esattamente questo! Finora non hanno avuto successo.
Kilian Foth,

31
"Tutti i modelli sono sbagliati ma alcuni sono utili" e nns sono sicuramente utili.
Gios

15
@RajeshDachiraju - è un vecchio linguaggio, ma forse ero un po 'vago. Hai chiesto perché non buttare via le NN perché non sono perfette. La mia replica è che non sono perfetti, ma sono UTILI. Le persone li usano per guidare le auto, tradurre le lingue straniere, taggare i video, conservare le balene e persino applicare quei filtri di immondizia snapchat con orecchie di cane alle tue foto! ad esempio funzionano, quindi continuiamo a usarli :)
Gios

13
Sai anche cosa c'è che non va: la meccanica newtoniana. Meccanica quantistica. Relatività. Tutta la fisica è sbagliata (non esiste un solo modello che descriva tutto, tutti hanno i loro difetti). La chimica è completamente sbagliata in così tante cose (descrivere un atomo è sempre solo una buona approssimazione ma mai esatta). L'unica cosa esattamente vera al mondo è la matematica. Matematica pura. Tutto il resto si avvicina alla risposta giusta. Dovremmo buttare via il resto? (a partire dal tuo computer costruito con leggi sbagliate?). No. Ancora: tutti i modelli sono sbagliati, ma alcuni sono utili.
Mayou36,

Risposte:


48
  1. Non essere in grado di sapere quale soluzione generalizza meglio è un problema, ma non dovrebbe dissuaderci dal utilizzare altrimenti una buona soluzione. Gli stessi esseri umani spesso non sanno cosa generalizza meglio (si consideri, ad esempio, le teorie unificanti della fisica in competizione), ma ciò non ci causa troppi problemi.

  2. È stato dimostrato che è estremamente raro che l'allenamento fallisca a causa dei minimi locali. La maggior parte dei minimi locali in una rete neurale profonda ha un valore vicino al minimo globale, quindi questo non è un problema. fonte

Ma la risposta più ampia è che puoi parlare tutto il giorno della non convessità e della selezione dei modelli, e le persone useranno comunque le reti neurali semplicemente perché funzionano meglio di qualsiasi altra cosa (almeno su cose come la classificazione delle immagini).

Naturalmente ci sono anche persone che sostengono che non dovremmo concentrarci troppo sulle CNN come la comunità era focalizzata sugli SVM alcuni decenni fa, e invece continuano a cercare la prossima grande novità. In particolare, penso di ricordare che Hinton si rammaricava dell'efficacia delle CNN come qualcosa che potrebbe ostacolare la ricerca. post correlato


1
Mi piace particolarmente l'ultimo paragrafo.
Rajesh Dachiraju,

10
Hai una citazione per il punto 2?
DrMcCleod l'

@DrMcCleod: per me il punto 2 assomiglia più al jingoismo. Solo in un senso più leggero.
Rajesh Dachiraju,

6
@DrMcCleod c'è molto lavoro che suggerisce che i minimi locali sono molto vicini ai minimi globali e che i punti di sella invece sono il problema. Vedi questo articolo per una discussione sui punti di sella e questo articolo sul perché i minimi locali non sono necessariamente negativi.
giovedì

1
Preferirei solo un teatro, mi aspetto. Ma supponiamo di sapere che mi piacerà praticamente qualsiasi film quasi quanto quello che voglio davvero vedere. Quindi non rimarrò deluso quando ci saranno 10 sale e dovrò sceglierne uno a caso, perché so che qualsiasi teatro e film mi lasceranno soddisfatto.
shimao,

14

Come sottolineano i commenti alla tua domanda, ci sono molte persone che lavorano per trovare qualcosa di meglio. Vorrei però rispondere a questa domanda espandendo il commento lasciato da @josh


Tutti i modelli sono sbagliati ma alcuni sono utili (Wiki)

L'affermazione di cui sopra è una verità generale utilizzata per descrivere la natura dei modelli statistici. Utilizzando i dati disponibili, possiamo creare modelli che ci consentono di fare cose utili come approssimare un valore previsto.

Prendiamo ad esempio la regressione lineare

Usando una serie di osservazioni, possiamo adattare un modello per darci un valore approssimativo per una variabile dipendente dato qualsiasi valore (i) per le variabili indipendenti.

Burnham, KP; Anderson, DR (2002), Selezione del modello e modello multiplo> Inferenza: un approccio teorico-informativo pratico (2a edizione):

"Un modello è una semplificazione o approssimazione della realtà e quindi non rifletterà tutta la realtà ... Box ha osservato che" tutti i modelli sono sbagliati, ma alcuni sono utili ". Mentre un modello non può mai essere" verità ", un modello potrebbe essere classificato da molto utile, a utile, in qualche modo utile, infine, sostanzialmente inutile ".

Le deviazioni dal nostro modello (come si può vedere nell'immagine sopra) appaiono casuali, alcune osservazioni sono sotto la linea e alcune sono sopra, ma la nostra linea di regressione mostra una correlazione generale. Mentre le deviazioni nel nostro modello appaiono casuali, in scenari realistici ci saranno altri fattori in gioco che causano questa deviazione. Ad esempio, immagina di guardare le auto mentre attraversano un incrocio in cui devono girare a sinistra oa destra per continuare, le auto non girano in alcun modo particolare. Mentre potremmo dire che la direzione in cui girano le macchine è completamente casuale, ogni pilota raggiunge l'incrocio e a quel punto prende una decisione casuale su quale direzione svoltare? In realtà probabilmente si stanno dirigendo in un posto specifico per un motivo specifico e senza tentare di fermare ogni macchina per chiedere loro il loro ragionamento, possiamo solo descrivere le loro azioni come casuali.

Laddove siamo in grado di adattare un modello con una minima deviazione, quanto possiamo essere certi che una variabile sconosciuta, inosservata o incommensurabile non potrà a un certo punto lanciare il nostro modello? Il battito delle ali di una farfalla in Brasile fa scattare un tornado in Texas?

Il problema con l'utilizzo dei modelli Linear e SVN che menzioni da solo è che in qualche modo siamo tenuti ad osservare manualmente le nostre variabili e il modo in cui ognuna di esse si influenza reciprocamente. Dobbiamo quindi decidere quali variabili sono importanti e scrivere un algoritmo specifico per l'attività. Questo può essere semplice se abbiamo solo poche variabili, ma se ne avessimo migliaia? E se volessimo creare un modello di riconoscimento delle immagini generalizzato, questo potrebbe realisticamente essere raggiunto con questo approccio?

Le reti di apprendimento profondo e reti neurali artificiali (ANN) possono aiutarci a creare modelli utili per enormi set di dati contenenti enormi quantità di variabili (ad esempio librerie di immagini). Come dici tu, c'è un numero incomprensibile di soluzioni che potrebbero adattarsi ai dati usando le ANN, ma questo numero è davvero diverso dalla quantità di soluzioni di cui avremmo bisogno per svilupparci attraverso prove ed errori?

L'applicazione delle RNA svolge gran parte del lavoro per noi, possiamo specificare i nostri input e i risultati desiderati (e modificarli in seguito per apportare miglioramenti) e lasciare che sia la RNA a capire la soluzione. Questo è il motivo per cui le ANN sono spesso descritte come "scatole nere" . Da un dato input generano un'approssimazione, tuttavia (in termini generali) queste approssimazioni non includono dettagli su come sono state approssimate.

E quindi si riduce davvero a quale problema stai cercando di risolvere, poiché il problema determinerà quale approccio modello è più utile. I modelli non sono assolutamente precisi e quindi c'è sempre un elemento di "errore", tuttavia più accurati sono i risultati, più utili sono. Avere più dettagli nei risultati su come è stata fatta l'approssimazione può anche essere utile, a seconda del problema potrebbe anche essere più utile di una maggiore precisione.

Se, ad esempio, stai calcolando un punteggio di credito delle persone, l'utilizzo della regressione e degli SVM fornisce calcoli che possono essere esplorati meglio. Essere in grado sia di modificare direttamente il modello sia di spiegare ai clienti l'effetto che variabili indipendenti indipendenti hanno sul loro punteggio complessivo è molto utile. Una RNA può aiutare a elaborare grandi quantità di variabili per ottenere un punteggio più accurato, ma questa precisione sarebbe più utile?


6
Fai alcuni punti positivi, ma il fatto che "in molti casi le nostre osservazioni e previsioni non si collocheranno esattamente sulla linea adattata" non è una dimostrazione appropriata dello slogan "tutti i modelli sono sbagliati". Nella regressione lineare stiamo modellando E (Y | X) e quindi i punti che non si trovano esattamente sulla linea non dimostrano una carenza nel nostro modello. La casualità è prespecificata e prevista; il modello non è "sbagliato" quando osserviamo deviazioni dalla linea adattata.
Klumbard,

@klumbard Grazie per il commento. Ho aggiornato la mia risposta con maggiori dettagli, il che spiega il mio ragionamento dietro usando questo come esempio. Ho adottato un approccio più filosofico nella mia risposta e ho parlato in termini più generali piuttosto che specifici, questo è il mio primo post in questa comunità, quindi mi scuso se non è questo il posto dove farlo. Sembri ben informato dei dettagli, potresti approfondire un po 'di più il tuo commento? La domanda che ho è: dove le deviazioni non dimostrano carenza, un modello di regressione con un R-quadrato di 0,01 non è "sbagliato"?
Carrosive,

2
Il mio unico problema con il tuo post è il modo in cui pronunci "... poiché in molti casi le nostre osservazioni e previsioni non si collocheranno esattamente sulla linea adattata. Questo è un modo in cui il nostro modello è spesso" sbagliato "..." . Sto semplicemente dicendo che la specifica del modello include un termine di errore e quindi il fatto (da solo) che i dati osservati non rientrano nella linea adattata non indica "erroneità" del modello. Potrebbe sembrare una sottile distinzione semantica, ma penso che sia importante
klumbard l'

1
Il punto saliente, a cui ti rivolgi, è che tutti i modelli sono sbagliati a causa della distorsione da variabile omessa e della mancata specificazione della forma funzionale. Ogni volta che annoti un modello di regressione ed esegui deduzioni sulle stime, stai assumendo di aver specificato correttamente il modello, il che non è mai il caso.
Klumbard,

1
@klumbard Oh, posso vedere da dove vieni adesso. Pertanto, sebbene il modello produca stime che è improbabile che siano completamente accurate, possiamo misurare il termine di errore per indicare quanto i valori reali possono discostarsi dalle stime, e quindi sarebbe errato affermare che il modello è intrinsecamente sbagliato. Prenderò quella parte dalla mia risposta, penso che il mio punto sia meglio spiegato nella parte che ho aggiunto dopo. Grazie per aver spiegato :)
Carrosive,

8

Il minimo globale può anche essere inutile, quindi non ci interessa davvero se lo troviamo o no. Il motivo è che, per reti profonde, non solo il tempo per trovarlo diventa esponenzialmente più lungo all'aumentare della dimensione della rete, ma anche il minimo globale spesso corrisponde al sovradimensionamento del set di formazione. Pertanto, la capacità di generalizzazione del DNN (che è ciò a cui teniamo veramente) ne risentirebbe. Inoltre, spesso preferiamo i minimi più piatti corrispondenti a un valore più elevato della funzione di perdita, rispetto ai minimi più nitidi che corrispondono a un valore più basso della funzione di perdita, poiché il secondo tratterà molto male dell'incertezza negli input. Questo sta diventando sempre più chiaro con lo sviluppo del Bayesian Deep Learning. La robusta ottimizzazione batte molto spesso l'ottimizzazione deterministica, quando applicata a problemi del mondo reale in cui l'incertezza è importante.

Infine, è un dato di fatto che i DNN prendono a calci in culo metodi come XGBoost nella classificazione delle immagini e PNL. Una società che deve trarre profitto dalla classificazione delle immagini li selezionerà correttamente come modelli da implementare nella produzione ( e investirà una notevole quantità di denaro in ingegneria delle caratteristiche, pipeline di dati, ecc. Ma sto divagando). Ciò non significa che dominino tutto l'ambiente ML: ad esempio, fanno peggio di XGBoost sui dati strutturati (vedi gli ultimi vincitori delle competizioni Kaggle) e sembrano non fare ancora così come i filtri antiparticolato sulla modellazione delle serie storiche. Tuttavia, alcune innovazioni molto recenti sugli RNN possono modificare questa situazione.


2
Veramente? Un downvote? Questo è un po 'non richiesto. È una risposta ragionevole (+1).
usεr11852 dice Reinstate Monic il

5
@RajeshDachiraju dal momento che apparentemente stai cercando di dedurre ciò di cui sarei o non sarei consapevole, probabilmente saresti interessato ad apprendere che le persone con una comprensione molto maggiore delle reti neurali e l'ottimizzazione non convessa di cui sembri avere, di cui parli abitualmente un unico minimo globale per le reti neurali. Tra l'enorme mucchio di documenti che usano questa terminologia, potresti provare a leggere questo e vedere se capisci dove ti sbagli.
DeltaIV,

2
@RajeshDachiraju: Grazie per aver spiegato il tuo ragionamento, molte persone semplicemente non si preoccuperebbero. Detto questo, penso che il tuo ragionamento sia imperfetto e derivi dall'interpretazione errata di una frase molto particolare. Concordo con DeltaIV che questa terminologia standard.
usεr11852 dice Reinstate Monic il

1
@DeltaIV: Il mio punto è che potrebbero esserci più vettori di peso che hanno una perdita di 0 sui dati di allenamento (ovviamente mantenendo costante l'architettura). L'intero punto dell'allenamento è ottenere il vettore di peso inst it? Quindi non sono d'accordo con te. Uno di questi vettori di peso è estremamente utile. Ma chiedo che accettiamo di non essere d'accordo e di terminare questa conversazione qui. Saluti Rajesh
Rajesh Dachiraju,

1
@RajeshDachiraju sì, potrebbe esserci, e sono tutti ugualmente inutili / poco interessanti, perché corrispondono a sovradimensionare il set di addestramento un potere di generalizzazione molto basso, se del caso. Consiglio vivamente di leggere l'articolo a cui mi sono collegato prima, il che spiega molto bene perché quando si utilizza NN non ci interessa davvero il valore minimo globale sul set di addestramento della funzione di perdita. Inoltre, può essere utile un po 'di materiale sulla prevenzione del sovradimensionamento negli NN.
DeltaIV

7

Penso che il modo migliore per pensare a questa domanda sia attraverso il mercato competitivo. Se scarichi l'apprendimento profondo e i tuoi concorrenti lo usano, e sembra funzionare meglio di quello che hai usato, allora verrai picchiato sul mercato.

Penso che sia quello che sta succedendo, in parte, oggi, cioè l'apprendimento profondo sembra funzionare meglio di qualsiasi altra cosa per tutti i problemi sul mercato. Ad esempio, i traduttori di lingue online che usano il deep learning sono migliori degli approcci puramente linguistici che erano stati usati in precedenza. Solo pochi anni fa non era così, ma i progressi nell'apprendimento profondo hanno portato coloro che erano abituati alle posizioni di leadership sul mercato.

Continuo a ripetere "il mercato" perché è ciò che sta guidando l'attuale impennata dell'apprendimento profondo. Nel momento in cui gli affari trovano qualcosa di utile, qualcosa si diffonderà. Non siamo noi , il comitato, a decidere che l'apprendimento profondo dovrebbe essere popolare. Sono affari e concorrenza.

La seconda parte è che oltre al successo effettivo di ML, c'è anche la paura di perdere la barca. Molte aziende sono paranoiche che se perdono l'intelligenza artificiale, falliranno come imprese. Questa paura è alimentata da tutte queste case di consulenza, Gartner ecc., Sussurrando ai CEO che devono fare l'IA o morire domani.

Nessuno sta costringendo le aziende a utilizzare il deep learning. IT e R&S sono entusiasti di un nuovo giocattolo. Il tifo del mondo accademico, quindi questa festa durerà fino a quando la musica non si fermerà, cioè fino a quando il deep learning non smetterà di offrire. Nel frattempo puoi scaricarlo e trovare una soluzione migliore.


Che dire del finanziamento della ricerca accademica? Puoi per favore farci luce?
Rajesh Dachiraju,

2
Molti finanziamenti provengono dal settore. I professori che ottengono la maggior parte dei soldi dall'industria sono quelli che hanno maggiore influenza nel mondo accademico. Le università portano via una grossa fetta di denaro che ottengono dalle aziende, quindi amano questi professori. Se leggi questo articolo di
New York

ottimo riferimento al mercato (+1): ho detto lo stesso ("Una società che deve trarre profitto dalla classificazione delle immagini li selezionerà correttamente come modelli da implementare in produzione"). Tuttavia, sarei leggermente in disaccordo sulla paranoia. È un dato di fatto (non paranoia) che Waymo è pronto a battere Tesla, Audi e un'altra casa automobilistica il cui nome non ricordo ora, e questo è in gran parte dovuto agli enormi investimenti di Google in Deep Learning. Audi avrebbe sicuramente potuto usare SIFT e SURF (ben collaudate tecnologie di visione
artificiale

...ricercato. La superiorità di DL rispetto a SIFT, SURF e altri metodi basati sulla geometria, quando si tratta di classificazione delle immagini, è un fatto attestato da cinque anni di solida ricerca accademica e industriale. Non è sicuramente una panacea (vedi i fallimenti di IBM Watson), e c'è un po 'di clamore, ma ci sono anche fatti difficili, freddi.
DeltaIV

2
@DeltaIV ML funziona sicuramente in alcune applicazioni, ma penso che l'adozione su larga scala di oggi sia dovuta alla paranoia e alla pubblicità in larga misura. Che stia funzionando o meno, i CTO lo stanno solo facendo. Ho amici che non avevano idea di cosa stavo parlando solo un anno fa, ora dicono che l'IA è il futuro, inizieranno le implementazioni ecc.
Aksakal,

4

Ci sono risposte eccellenti, soprattutto per quanto riguarda l'utilità di DL e ANN. Ma vorrei contestare l'OP in un modo più fondamentale, poiché la domanda dà già per scontato l'incoerenza matematica delle reti neurali.

Prima di tutto, non v'è una teoria matematica dietro (la maggior parte dei modelli di) Reti Neurali. Si potrebbe anche sostenere che la regressione lineare non si generalizza, a meno che il modello sottostante non sia ... beh, lineare. Negli algoritmi neurali, viene assunto un modello (anche se non esplicitamente) e viene calcolato l'errore di adattamento. Il fatto che gli algoritmi vengano modificati con varie euristiche non annulla il supporto matematico originale. A proposito, l'ottimizzazione locale è anche una teoria matematicamente coerente, e tanto meno utile.

Lungo questa linea, se le reti neurali costituiscono solo una classe di metodi all'interno dell'intera cassetta degli strumenti degli scienziati, qual è la linea che separa le reti neurali dal resto delle tecniche? In effetti, gli SVM una volta erano considerati una classe di NN e appaiono ancora negli stessi libri. D'altra parte, le NN potrebbero essere considerate una tecnica di regressione (non lineare), forse con una certa semplificazione. Concordo con l'OP che dobbiamo cercare algoritmi migliori, ben fondati ed efficienti, indipendentemente dal fatto che li etichetti come NN o meno.


Il problema con l'incoerenza è che non si possono porre domande semplici come, quando si dovrebbe smettere di allenarsi e rinunciare? Anche molte voci come 'Dropot', 'perdita di peso', 'ReLu' e varie attivazioni, normalizzazione batch, pool massimo, softmax, arresto anticipato, vari programmi di velocità di apprendimento e tutte le permutazioni e combinazioni di questi rendono il progettista sempre in dubbio se rinunciare o meno ad un certo punto.
Rajesh Dachiraju,

1
@RajeshDachiraju Lo stesso si può dire dei coefficienti di penalità negli algoritmi di ottimizzazione del punto esterno o della dimensione del passo nei metodi Runge-Kutta. La parola "incoerente" ha un significato preciso nella scienza che non si applica qui.
Miguel,

0

Immagino che per qualche problema ci preoccupiamo meno del rigore matematico e della semplicità ma più della sua utilità, lo stato attuale è che la rete neurale è meglio nell'esecuzione di determinati compiti come il riconoscimento di schemi nell'elaborazione di immagini.


0

C'è molto in questa domanda. Andiamo oltre quello che hai scritto uno per uno.

Le soluzioni che si adattano ai dati di allenamento sono infinite. Non abbiamo un'equazione matematica precisa che è soddisfatta da una sola e che possiamo dire generalizza al meglio.

Il fatto che ci siano infinite soluzioni deriva dal fatto che il problema dell'apprendimento è un problema mal posto, quindi non ce ne può essere uno che generalizzi meglio. Inoltre, con nessun teorema del pranzo libero qualunque metodo che usiamo non può garantire che sia il migliore in tutti i problemi di apprendimento.

Semplicemente non sappiamo quale generalizza meglio.

Questa affermazione non è proprio vera. Esistono teoremi sulla minimizzazione del rischio empirico di Vapnik & Chervonenkis che collegano il numero di campioni, la dimensione VC del metodo di apprendimento e l'errore di generalizzazione. Si noti che ciò vale solo per un determinato set di dati. Quindi, dato un set di dati e una procedura di apprendimento, conosciamo i limiti della generalizzazione. Si noti che, per diversi set di dati non esistono e non può essere la migliore procedura di apprendimento a causa del teorema del pranzo libero.

L'ottimizzazione dei pesi non è un problema convesso, quindi non sappiamo mai di finire con un minimo globale o locale. Quindi perché non scaricare le reti neurali e cercare un modello ML migliore?

Qui ci sono alcune cose che devi tenere a mente. L'ottimizzazione del problema non convesso non è facile come quella convessa; questo è vero. Tuttavia, la classe di metodi di apprendimento convessi è limitata (regressione lineare, SVM) e in pratica si comportano peggio della classe di non convessi (potenziamento, CNN) su una varietà di problemi. Quindi la parte cruciale è che in pratica le reti neurali funzionano meglio. Sebbene ci siano una serie di elementi molto importanti che fanno funzionare bene le reti neurali:

  1. Possono essere applicati su set di dati molto grandi a causa della discesa stocastica del gradiente.
  2. A differenza degli SVM, l'inferenza con le reti profonde non dipende dal set di dati. Ciò rende efficienti le reti neurali al momento del test.
  3. Con le reti neurali è possibile controllare direttamente la loro capacità di apprendimento (pensare al numero di parametri) semplicemente aggiungendo più livelli o ingrandendoli. Questo è fondamentale poiché per diversi set di dati potresti volere modelli più grandi o più piccoli.

Qualcosa che capiamo e qualcosa che è coerente con una serie di equazioni matematiche? Linear e SVM non presentano questi inconvenienti matematici e sono pienamente coerenti con una serie di equazioni matematiche. Perché non pensare solo sulle stesse linee (non è necessario che sia lineare però) e proporre un nuovo modello ML migliore di Linear e SVM e delle reti neurali e del deep learning?

Scaricare cose che funzionano perché non le capisco non è una grande direzione di ricerca. Fare uno sforzo per capirli è, d'altra parte, una grande direzione di ricerca. Inoltre, non sono d'accordo sul fatto che le reti neurali siano incompatibili con le equazioni matematiche. Sono abbastanza coerenti. Sappiamo come ottimizzarli ed eseguire inferenze.


-2

Che ne dite di vedere le reti neurali da un punto di vista sperimentale? Solo perché li abbiamo creati non significa che siamo obbligati a capirli intuitivamente. O che non ci è permesso giocare con loro per avere una migliore comprensione di ciò che stanno facendo.

Ecco un paio di pensieri che ho su di loro:

  • Struttura: sono gerarchie. Sono come alberi che condividono input. Le radici sono gli input e le foglie sono il layer di output. Più il livello è vicino alle uscite, più è rilevante per loro, maggiore è il livello di astrazione che contiene (riguarda più l'immagine che i pixel).
  • Funzionalità: "giocano" con i dati, il modus operandi è quello di sperimentare le relazioni nei neuroni (pesi) fino a quando le cose "scattano" (il margine di errore è accettabile).

Ciò è coerente con il nostro modo di pensare. È persino coerente con il funzionamento del metodo scientifico. Quindi, rompendo le reti neurali, potremmo anche risolvere la questione generale di ciò che la conoscenza rappresenta.


-3

Non dimenticare, esiste un vasto campo di ricerca che utilizza LM, GLM, modellazione multilivello. Ultimamente le tecniche bayesiane e Hamiltoniano Monte Carlo (la comunità STAN è davvero all'avanguardia) hanno raggiunto la maggiore età e una serie di problemi che sono stati risolti da STAN molto facilmente e non hanno davvero bisogno di NN o reti profonde. La ricerca in scienze sociali, la microeconomia sono due (grandi) esempi di tali campi che adottano Stan rapidamente.

I modelli di Stan sono molto "leggibili". I coefficienti hanno in realtà un'interpretazione distributiva posteriore e così anche le previsioni. I priori fanno parte del processo di generazione dei dati e non devono essere coniugati per essere performanti (come i gibbs). L'adattamento del modello in Stan è un piacere, in realtà sintonizza i fastidiosi parametri MCMC automaticamente dannatamente bene e ti avverte quando l'esplorazione è bloccata con visualizzazioni davvero belle.

Se non l'hai ancora provato, vedi fantastiche demo di Stan qui ).

Alla fine della giornata penso che la gente non parli tanto di queste cose perché la ricerca in questo campo e i problemi non sono così "sexy" / "fighi" come con le NN.


-5

Cosa succede in genere quando non c'è coerenza matematica (almeno in questo caso di reti neurali) ... quando non sta dando risultati come desiderato, sul set di test, il tuo capo tornerà e dirà ... Ehi, perché non lo fai? prova Abbandona (quali pesi, quale strato, quanti sono i tuoi mal di testa in quanto non esiste un modo matematico per determinare), quindi dopo aver provato e speriamo di aver ottenuto un miglioramento marginale ma non quello desiderato, il tuo capo tornerà e dirà, perché non provare la perdita di peso (quale fattore?)? e più tardi, perché non provi ReLU o qualche altra attivazione su alcuni livelli, e ancora no, perché non provare il "pool massimo"? ancora no, perché non provare la normalizzazione batch, ancora no, o almeno la convergenza, ma il risultato non desiderato, oh sei in un minimo locale, prova un programma di frequenza di apprendimento diverso, basta cambiare l'architettura di rete? e ripeti tutto sopra in diverse combinazioni! Tienilo in loop fino a quando non ci riesci!

D'altra parte, quando provi un SVM coerente, dopo la convergenza, se il risultato non è buono, allora va bene, il kernel lineare che stiamo usando non è abbastanza buono poiché i dati potrebbero non essere lineari, usa un kernel di forma diversa, prova un kernel di forma diversa se hai qualche idea, se non ancora, lascialo, è una limitazione di SVM.

Quello che sto dicendo è che le reti neurali sono così incoerenti che non è nemmeno sbagliato! Non accetta mai la sua sconfitta! L'ingegnere / progettista si assume l'onere, nel caso in cui non funzioni come desiderato.


3
Questo non mi sembra contenere una risposta alla tua domanda. Pensi di poterlo modificare in modo da sembrare meno simile a un rant e chiarire in che modo questo spiega perché le reti neurali e il deep learning possono essere più utili di un modello ML (che sembra essere la tua domanda originale)?
Silverfish

1
Il suo punto è che con SVM sappiamo quando abbiamo fatto nel miglior modo possibile, ma con le NN non possiamo saperlo. Probabilmente, data la facilità con cui DL viene ingannato, anche metriche come errori non ci dicono quanto il modello stia davvero andando bene.
yters

1
@yters, sì, ma il commento di silverfish è stato che questa non è una risposta al perché non scaricare DL. È più vicino a una riaffermazione della domanda. Suggerirei di fonderlo con la domanda.
P.Windridge,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.