Nell'apprendimento automatico di base ci vengono insegnate le seguenti "regole pratiche": a) la dimensione dei tuoi dati dovrebbe essere almeno 10 volte la dimensione della dimensione VC del tuo set di ipotesi. b) una rete neurale con connessioni N ha una dimensione VC di circa N. Quindi, quando una rete …
Sto studiando questo tutorial su Autoencoder variabili di Carl Doersch . Nella seconda pagina si afferma: Uno dei framework più popolari è l'Autocodificatore Variazionale [1, 3], oggetto di questo tutorial. I presupposti di questo modello sono deboli e l'allenamento è rapido tramite backpropagation. I VAE fanno un'approssimazione, ma l'errore introdotto …
La letteratura sull'apprendimento profondo è piena di trucchi intelligenti con l'uso di tassi di apprendimento non costanti nella discesa del gradiente. Cose come il decadimento esponenziale, RMSprop, Adagrad ecc. Sono facili da implementare e sono disponibili in ogni pacchetto di apprendimento profondo, ma sembrano essere inesistenti al di fuori delle …
Tutti gli esempi che ho trovato usando convinzioni profonde o reti neurali convoluzionali li usano per la classificazione delle immagini, il rilevamento dei chatacter o il riconoscimento vocale. Le reti neurali profonde sono utili anche per le attività di regressione classica, in cui le caratteristiche non sono strutturate (ad esempio, …
Diciamo che sto scrivendo un algoritmo per la creazione di un codificatore automatico sovrapposto a 2 strati e di una rete neurale a 2 strati. Sono le stesse cose o le stesse differenze? Quello che capisco è che quando costruisco un codificatore automatico in pila, costruisco strato per strato. Per …
Se ho una rete neurale convoluzionale (CNN), che ha circa 1.000.000 di parametri, quanti dati di addestramento sono necessari (supponiamo che stia facendo una pendenza stocastica)? C'è qualche regola empirica? Note aggiuntive: quando ho eseguito la discesa gradiente stocastica (ad es. 64 patch per 1 iterazione), dopo ~ 10000 iterazioni, …
Questo è con riferimento al documento Localizzazione efficiente degli oggetti utilizzando reti convoluzionali e da quello che ho capito il dropout è implementato in 2D. Dopo aver letto il codice di Keras su come viene implementato il Dropout 2D spaziale, in pratica viene implementata una maschera binaria casuale di forma …
Soprattutto nel contesto delle competizioni kaggle ho notato che le prestazioni del modello riguardano la selezione / ingegneria delle caratteristiche. Sebbene io possa comprendere appieno il motivo per cui si tratta degli algoritmi ML più convenzionali / di vecchia scuola, non vedo perché ciò avvenga quando si utilizzano reti neurali …
Come viene addestrato il livello di incorporamento nel livello Incorporamento di Keras? (ad esempio usando tensorflow backend, il che significa che è simile a word2vec, glove o fasttext) Supponiamo di non utilizzare un incorporamento predefinito.
Che cos'è il deep learning bayesiano e in che modo si collega alle statistiche bayesiane tradizionali e al deep learning tradizionale? Quali sono i concetti e la matematica principali coinvolti? Potrei dire che sono solo statistiche bayesiane non parametriche? Quali sono le sue opere fondamentali, nonché i suoi attuali sviluppi …
Nel documento di DeepMind del 2015 sull'apprendimento approfondito del rinforzo, si afferma che "I precedenti tentativi di combinare RL con le reti neurali erano in gran parte falliti a causa dell'apprendimento instabile". Il documento elenca quindi alcune cause di ciò, in base alle correlazioni tra le osservazioni. Per favore qualcuno …
Ho letto alcuni articoli sull'immaginazione manuale di immagini per "ingannare" una rete neurale (vedi sotto). Questo perché le reti modellano solo la probabilità condizionale ? Se una rete può modellare la probabilità congiunta p ( y , x ) , si verificheranno comunque casi del genere?p(y|x)p(y|x)p(y|x)p(y,x)p(y,x)p(y,x) La mia ipotesi è …
Voglio sapere di cosa si tratta e in che modo differisce dall'insieme? Supponiamo che io voglia ottenere un'elevata precisione nella classificazione e nella segmentazione, per un compito specifico, se per raggiungere questo scopo utilizzo reti diverse, come CNN, RNN, ecc., Si chiama modello end-to-end? (architettura?) o no?
Sfondo: Di recente ho compreso a un livello più profondo l'importanza dell'aumento dei dati durante l'addestramento di reti neurali convoluzionali dopo aver visto questo eccellente discorso di Geoffrey Hinton . Spiega che le reti neurali convoluzionali della generazione attuale non sono in grado di generalizzare il quadro di riferimento dell'oggetto …
Sto modellando 15000 tweet per la previsione del sentimento usando un LSTM a singolo strato con 128 unità nascoste usando una rappresentazione simile a word2vec con 80 dimensioni. Ottengo una precisione di discesa (38% con casuale = 20%) dopo 1 epoca. Un ulteriore addestramento fa declinare l'accuratezza della convalida man …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.