A cosa servono tutti i diversi tipi di reti neurali?

Ho trovato il seguente cheat sheet della rete neurale ( Cheat Sheets for AI, Neural Networks, Machine Learning, Deep Learning & Big Data ).

A cosa servono tutti questi diversi tipi di reti neurali? Ad esempio, quali reti neurali possono essere utilizzate per la regressione o la classificazione, quali possono essere utilizzate per la generazione di sequenze, ecc.? Ho solo bisogno di una breve panoramica (1-2 righe) delle loro applicazioni.

— datdinhquoc
fonte

Sono d'accordo che questo sia troppo ampio, ma ecco una risposta di 1 frase per la maggior parte di essi. Quelle che ho lasciato fuori (dal fondo della tabella) sono molto moderne e molto specializzate. Non ne so molto su di loro, quindi forse qualcuno che può migliorare questa risposta.

Perceptron: regressione lineare o di tipo logistico (e quindi classificazione).
Feed Forward: regressione o classificazione solitamente non lineare con attivazione sigmoidale. Essenzialmente un percettrone multistrato.
Rete a base radiale: rete Feed Forward con funzioni di attivazione a base radiale. Utilizzato per la classificazione e alcuni tipi di filtro video / audio
Deep Feed Forward: Feed Forward con più di 1 livello nascosto. Utilizzato per apprendere schemi più complessi in classificazione o regressione, forse l'apprendimento per rinforzo.

Rete neurale ricorrente: una rete diretta di avanzamento profondo in cui alcuni nodi si connettono ai livelli precedenti . Utilizzato nell'apprendimento per rinforzo e per apprendere modelli in dati sequenziali come testo o audio.
LSTM: una rete neurale ricorrente con neuroni di controllo specializzati (a volte chiamati gate) che consentono di ricordare i segnali per periodi di tempo più lunghi o di dimenticarli selettivamente. Utilizzato in qualsiasi applicazione RNN e spesso in grado di apprendere sequenze che hanno un tempo di ripetizione molto lungo.
GRU: Proprio come LSTM, un altro tipo di RNN gated con neuroni di controllo specializzati.

Auto Encoder: impara a comprimere i dati e poi a decomprimerli. Dopo aver appreso questo modello, può essere suddiviso in due utili sottoparti: una mappatura dallo spazio di input a uno spazio di caratteristiche a bassa dimensione, che può essere più facile da interpretare o comprendere; e una mappatura da un sottospazio di piccole dimensioni di numeri semplici in schemi complessi, che possono essere utilizzati per generare tali schemi complessi. Base di molti lavori moderni in visione, linguaggio ed elaborazione audio.
VAE, DAE, SAE: specializzazioni dell'encoder automatico.

Catena di Markov: una rappresentazione della rete neurale di una catena di Markov: lo stato è codificato nell'insieme di neuroni che sono attivi e le probabilità di transizione sono così definite dai pesi. Utilizzato per l'apprendimento delle probabilità di transizione e l'apprendimento delle funzioni senza supervisione per altre applicazioni.
HN, BM, RBM, DBM: architetture specializzate basate sull'idea della catena Markov, utilizzate per apprendere automaticamente utili funzioni per altre applicazioni.

Deep Convolutional Network: come una rete feed-forward, ma ogni nodo è in realtà una banca di nodi che apprende una convoluzione dallo strato precedente. Ciò consente essenzialmente di apprendere filtri, rilevatori di bordi e altri schemi di interesse nell'elaborazione di video e audio.
Deep Deconvolutional Network: in un certo senso opposta a una rete convoluzionale. Impara una mappatura dalle funzioni che rappresentano i bordi o altre proprietà di alto livello di alcune immagini invisibili, tornando allo spazio dei pixel. Genera immagini dai riepiloghi.
DCIGN: essenzialmente un codificatore automatico composto da un DCN e un DN uniti insieme. Utilizzato per apprendere modelli generativi per immagini complesse come i volti.
Generative Adversarial Network: utilizzato per apprendere modelli generativi per immagini complesse (o altri tipi di dati) quando non sono disponibili dati di formazione sufficienti per un DCIGN. Un modello impara a generare dati dal rumore casuale e l'altro impara a classificare l'output della prima rete come distinto da qualsiasi dato di addestramento disponibile.

— John Doucette
fonte