C'è qualche problema di apprendimento supervisionato che le reti neurali (profonde) ovviamente non possono superare qualsiasi altro metodo?

Ho visto che le persone hanno fatto molti sforzi su SVM e kernel e sembrano piuttosto interessanti come principianti in Machine Learning. Ma se ci aspettiamo che quasi sempre potremmo trovare soluzioni migliori in termini di (profonda) rete neurale, che senso ha provare altri metodi in questa era?

Ecco il mio vincolo su questo argomento.

Pensiamo solo agli insegnamenti supervisionati; Regressione e classificazione.
La leggibilità del risultato non viene conteggiata; conta solo l'accuratezza sul problema dell'apprendimento supervisionato.
Il costo computazionale non è preso in considerazione.
Non sto dicendo che nessun altro metodo sia inutile.

— pettirosso
fonte

Eventuali vincoli sulla quantità di dati di allenamento disponibili?

— Jake Westfall,

Non l'ho fatto, ma mi aspetto che faresti un gran brutto momento ad addestrare una rete neurale a fare ad esempio una decomposizione di valore singolare su una matrice di dimensioni non banali (diciamo, grado> 10).

— Mehrdad,

Google Translate ora utilizza le reti neurali e ora produce insuccessi più curiosi per un nome di città brasiliana in cui un uso parola per parola di un dizionario sarebbe stato molto meglio

— Henry,

Non ho mai sentito parlare del deep learning per l'uso del completamento della matrice (sebbene usare il completamento della matrice prima del deep learning sia una pratica comune). Si potrebbe sostenere che questo potrebbe essere un problema di costo computazionale, ma vale anche la pena notare che non so se tutti i computer del mondo potrebbero completare la matrice di deep learning con, diciamo, il problema di netflix.

— Cliff AB,

@CliffAB: (lingua a metà della guancia ...) probabilmente vale la pena notare che potrebbero non essere in grado, ma non sono sicuro che vale la pena notare che non sai se sono in grado di farlo;)

— Mehrdad,

Risposte:

Ecco una delle ragioni teoriche e due pratiche per cui qualcuno potrebbe razionalmente preferire un approccio non DNN.

Il teorema No Free Lunch di Wolpert e Macready dice

Abbiamo soprannominato i risultati associati teoremi NFL perché dimostrano che se un algoritmo funziona bene su una determinata classe di problemi, paga necessariamente per quello con prestazioni degradate sul set di tutti i problemi rimanenti.

In altre parole, nessun singolo algoritmo li governa tutti; devi fare un benchmark.

L'ovvia confutazione qui è che di solito non ti importa di tutti i possibili problemi e l'apprendimento profondo sembra funzionare bene su diverse classi di problemi di cui le persone si preoccupano (ad esempio, il riconoscimento degli oggetti), quindi è una prima / unica scelta ragionevole per altre applicazioni in quei domini.
Molte di queste reti molto profonde richiedono tonnellate di dati, oltre a tonnellate di calcolo, per adattarsi. Se hai (diciamo) 500 esempi, una rete a venti strati non imparerà mai bene, mentre potrebbe essere possibile adattare un modello molto più semplice. Ci sono un numero sorprendente di problemi in cui non è possibile raccogliere una tonnellata di dati. D'altra parte, si potrebbe provare ad imparare a risolvere un problema correlato (dove sono disponibili più dati), utilizzare qualcosa come l'apprendimento del trasferimento per adattarlo all'attività specifica a bassa disponibilità di dati.
Le reti neurali profonde possono anche avere insolite modalità di fallimento. Ci sono alcuni documenti che dimostrano che cambiamenti appena percettibili all'uomo possono causare il capovolgimento di una rete dalla classificazione corretta di un'immagine a una classificazione erroneamente sicura . (Vedi qui e il documento di accompagnamento di Szegedy et al.) Altri approcci potrebbero essere più solidi contro questo: ci sono attacchi di avvelenamento contro SVM (ad esempio, questo di Biggio, Nelson e Laskov), ma quelli avvengono in treno, piuttosto che test tempo. All'estremo opposto, ci sono limiti di prestazioni noti (ma non eccezionali) per l'algoritmo del vicino più vicino. In alcune situazioni, potresti essere più felice con prestazioni complessive inferiori con meno possibilità di catastrofe.

— Matt Krause
fonte

Ho concordato tutto quello che dici. Ma il problema riguarda le "questioni computazionali ignorate". Ciò significa che l'OP presume che avresti infiniti campioni e infinite risorse di calcolo.

— SmallChess,

Calcolo infinito! = Campioni infiniti. Ad esempio, ho accesso a un cluster sorprendentemente grande per l'elaborazione dei dati. Tuttavia, gli esperimenti di laboratorio che facciamo per acquisire effettivamente alcuni di quei dati sono difficili, lenti e dispendiosi in termini di tempo (nell'ordine di ore o giorni per un singolo punto dati) e tutto il calcolo nel mondo non lo aiuterà insieme .

— Matt Krause,

Le SVM con un determinato estrattore di funzioni sono probabilmente vulnerabili agli input contraddittorie quanto le CNN: è più difficile trovarle, perché non abbiamo gradienti facilmente disponibili dei livelli di estrazione delle caratteristiche.

— Dougal,

Un esempio recente e interessante del problema dato da @MattKrause e un tentativo di circumnavigarlo usando l'apprendimento di trasferimento è presentato in Apprendimento robot sim-reale da pixel con reti progressive

— HBeel,

@Dougal, mi chiedo anche se è importante che gli estrattori di funzioni DNN vengano appresi, mentre quelli SVM sono (di solito) fatti a mano e corrispondono a caratteristiche che gli umani notano. Parte di ciò che rende l'esempio del panda così insidioso è la differenza impercettibile tra l'esempio contraddittorio e quello normale.

— Matt Krause,

Da qualche parte in questa playlist di lezioni di Geoff Hinton (dal suo corso di Coursera sulle reti neurali), c'è un segmento in cui parla di due classi di problemi:

Problemi in cui il rumore è la caratteristica chiave,
Problemi in cui il segnale è la caratteristica chiave.

Ricordo la spiegazione che mentre le reti neurali prosperano in quest'ultimo spazio, i metodi statistici tradizionali sono spesso più adatti al primo. L'analisi di fotografie digitali ad alta risoluzione di cose reali nel mondo, un luogo in cui eccellono reti convoluzionali profonde, costituisce chiaramente quest'ultima.

D'altra parte, quando il rumore è la caratteristica dominante, ad esempio, in uno studio di controllo di casi medici con 50 casi e 50 controlli, i metodi statistici tradizionali possono essere più adatti al problema.

Se qualcuno trova quel video, commenta e lo aggiornerò.

— Ben Ogorek
fonte

Risposta eccellente. Esattamente perché ci rivolgiamo all'apprendimento profondo per cose che possiamo già fare (come riconoscere immagini e scrivere testo), ma possiamo rivolgerci ad altri modelli per cose che possono essere intuitivamente difficili.

— Mustafa S Eisa,

Personalmente prendo questa risposta nel mio più grande interesse. Grazie mille per la risposta

— Robin,

Due variabili correlate linearmente perfezionate. La rete profonda con 1 milione di strati nascosti e 2 trilioni di neutroni può battere una semplice regressione lineare?

MODIFICATO

Nella mia esperienza, la raccolta dei campioni è più costosa del calcolo. Voglio dire, possiamo semplicemente assumere alcune istanze di Amazon, eseguire corsi di apprendimento approfondito e poi tornare qualche giorno dopo. Il costo nel mio campo è di circa $ 200 USD. Il costo è minimo I miei colleghi guadagnano di più in un giorno.

La raccolta dei campioni richiede generalmente conoscenze del dominio e attrezzature specializzate. Il deep learning è adatto solo a problemi con set di dati di accesso economico e facile, come l'elaborazione del linguaggio naturale, l'elaborazione delle immagini e tutto ciò che è possibile estrarre da Internet.

— SmallChess
fonte

Ovviamente qualsiasi metodo MLE supererà il deep learning subordinato al modello generatore che soddisfa i presupposti del MLE . Tuttavia, ciò non accade mai su dati reali, o almeno per eventuali problemi interessanti (vale a dire non prevedere l'esito del lancio della moneta). Quindi penso che l'OP stia chiedendo esempi che implicano reali domande di interesse con dati reali.

— Cliff AB,

È una risposta molto bella Hai offerto un punto di vista molto intuitivo e realistico. Grazie mille.

— Robin,