Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo
Se la rimozione di alcuni neuroni si traduce in un modello con prestazioni migliori, perché non utilizzare in primo luogo una rete neurale più semplice con meno strati e meno neuroni? Perché costruire un modello più grande e complicato all'inizio e sopprimerne parti in seguito?
Di recente mi sono imbattuto in un incorporamento grafico come DeepWalk e LINE. Tuttavia, non ho ancora un'idea chiara di cosa significhino gli incastri grafici e quando utilizzarli (applicazioni)? Eventuali suggerimenti sono benvenuti!
Non sono un esperto di autoencoder o reti neurali in alcun modo, quindi perdonami se questa è una domanda sciocca. Ai fini della riduzione dimensionale o della visualizzazione di cluster in dati ad alta dimensione, è possibile utilizzare un codificatore automatico per creare una rappresentazione bidimensionale (con perdita) ispezionando l'output …
Se diamo uno sguardo al 90-99% dei lavori pubblicati utilizzando una CNN (ConvNet). La stragrande maggioranza di essi utilizza le dimensioni del filtro per i numeri dispari : {1, 3, 5, 7} per i più utilizzati. Questa situazione può comportare alcuni problemi: con queste dimensioni di filtro, di solito l'operazione …
Ho letto questo: Per addestrare la nostra rete neurale, inizializzeremo ogni parametro W (l) ijWij (l) e ogni b (l) ibi (l) su un piccolo valore casuale vicino allo zero (diciamo secondo un normale (0, ϵ2) normale (0 , ϵ2) distribuzione per alcuni piccoli ϵϵ, diciamo 0.01) da Stanford Tutorial …
In Decision Trees, possiamo comprendere l'output della struttura ad albero e possiamo anche visualizzare come l'albero decisionale prende le decisioni. Quindi gli alberi delle decisioni hanno spiegabilità (il loro output può essere spiegato facilmente). Abbiamo spiegabilità nelle reti neurali come con gli alberi decisionali?
Ho letto un paio di articoli sull'inizializzazione del kernel e molti articoli menzionano che usano la regolarizzazione L2 del kernel (spesso con ).λ = 0,0001λ=0.0001\lambda = 0.0001 Qualcuno fa qualcosa di diverso dall'inizializzare il bias con zero costante e non regolarizzarlo? Documenti di inizializzazione del kernel Mishkin e Matas: tutto …
Ho una buona comprensione generale del ruolo e del meccanismo dei livelli convoluzionali in Deep Learning per l'elaborazione delle immagini in caso di implementazioni 2D o 3D: "semplicemente" cercano di catturare modelli 2D nelle immagini (in 3 canali in caso di 3D). Ma recentemente mi sono imbattuto in strati convoluzionali …
Sto cercando di capire le dimensioni di ciascuna variabile in un RNN nel livello di dimenticanza, tuttavia, non sono sicuro di essere sulla strada giusta. L'immagine e l'equazione successive sono tratte dal post sul blog di Colah "Capire le reti LSTM" : dove: xtxtx_t è un input di dimensione vettorem∗1m∗1m*1 …
L'idea di applicare filtri per fare qualcosa come identificare i bordi, è un'idea piuttosto interessante. Ad esempio, è possibile acquisire un'immagine di un 7. Con alcuni filtri, è possibile ottenere immagini trasformate che enfatizzano le diverse caratteristiche dell'immagine originale. L'originale 7: può essere sperimentato dalla rete come: Notare come ogni …
Quando eseguiamo la convalida incrociata di k-fold, dovremmo semplicemente utilizzare il classificatore con la massima precisione di prova? Qual è generalmente l'approccio migliore per ottenere un classificatore dalla validazione incrociata?
Sto leggendo una presentazione e mi consiglia di non utilizzare lasciare una codifica, ma va bene con una codifica a caldo. Pensavo fossero entrambi uguali. Qualcuno può descrivere quali sono le differenze tra loro?
Sto cercando di trovare pesi pre-allenati di modelli già addestrati come i dati di Google News ecc. Ho trovato difficile addestrare un nuovo modello con una quantità sufficiente (10 GB ecc.) Di dati per me stesso. Quindi, voglio trarre beneficio dall'apprendimento del trasferimento in cui sarei in grado di ottenere …
Poche cose nella vita mi fanno piacere come scartare dati strutturati e non strutturati da Internet e usarli nei miei modelli. Ad esempio, il Data Science Toolkit (o RDSTKper i programmatori R) mi consente di estrarre molti buoni dati basati sulla posizione utilizzando IP o indirizzi e il pacchetto tm.webmining.pluginfor …
Vorrei sapere qual è il modo migliore per classificare un set di dati composto da tipi misti di attributi, ad esempio testuale e numerico. So di poter convertire testuale in booleano, ma il vocabolario è vario e i dati diventano troppo scarsi. Ho anche cercato di classificare i tipi di …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.