Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo
Quando dico "documento", ho in mente pagine web come articoli di Wikipedia e notizie. Preferisco le risposte fornendo metriche della distanza lessicale vaniglia o metriche della distanza semantica all'avanguardia, con una preferenza più forte per quest'ultima.
Dalla mia limitata conoscenza della scienza dei dati con R, mi sono reso conto che la pulizia dei dati errati è una parte molto importante della preparazione dei dati per l'analisi. Esistono best practice o processi per la pulizia dei dati prima dell'elaborazione? In tal caso, esistono strumenti automatizzati o …
Come si può programmare nella libreria keras (o tensorflow) per partizionare l'allenamento su più GPU? Diciamo che ti trovi in un'istanza di Amazon ec2 con 8 GPU e vorresti usarli tutti per allenarti più velocemente, ma il tuo codice è solo per una singola CPU o GPU.
Attualmente sto provando ad aprire un file con Panda e Python per scopi di apprendimento automatico, sarebbe l'ideale per me averli tutti in un DataFrame. Ora il file ha una dimensione di 18 GB e la mia RAM è di 32 GB, ma continuo a ricevere errori di memoria. Dalla …
Ho letto di NCE (una forma di campionamento candidato) da queste due fonti: Tensorflow writeup Carta originale Qualcuno può aiutarmi con quanto segue: Una semplice spiegazione di come funziona NCE (ho trovato quanto sopra difficile da analizzare e capire, quindi qualcosa di intuitivo che porta alla matematica presentata lì sarebbe …
Sto cercando di convertire un elenco di elenchi simile al seguente in un frame di dati Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', …
Con Hadoop 2.0 e YARN Hadoop presumibilmente non è più legato solo a soluzioni di riduzione delle mappe. Con questo progresso, quali sono i casi d'uso di Apache Spark vs Hadoop considerando entrambi in cima a HDFS? Ho letto la documentazione introduttiva di Spark, ma sono curioso di sapere se …
Quindi, recentemente c'è un documento sulla normalizzazione dei livelli . C'è anche una sua implementazione su Keras. Ma ricordo che ci sono articoli intitolati Recurrent Batch Normalization (Cooijmans, 2016) e Batch Normalized Recurrent Neural Networks (Laurent, 2015). Qual è la differenza tra quei tre? C'è questa sezione di lavoro correlato …
Sto lavorando sulla ricerca, in cui necessità di una classificare dei WINNER tre eventi = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Il mio modello attuale …
Ho un grosso problema con un grande set di dati (ad esempio 50 milioni di righe e 200 colonne). Il set di dati è costituito da circa 100 colonne numeriche e 100 colonne categoriche e una colonna di risposta che rappresenta un problema di classe binaria. La cardinalità di ciascuna …
Perché usare softmax in contrapposizione alla normalizzazione standard? Nell'area dei commenti della risposta principale a questa domanda, @Kilian Batzner ha sollevato 2 domande che mi confondono molto. Sembra che nessuno dia una spiegazione tranne i vantaggi numerici. Ottengo i motivi per usare la perdita di entropia incrociata, ma come si …
Mi sembra che la funzione VVV possa essere facilmente espressa dalla funzione QQQ e quindi la funzione VVV sembra superflua. Tuttavia, sono nuovo nell'apprendimento del rinforzo, quindi credo di aver sbagliato qualcosa. definizioni L'apprendimento Q e V sono nel contesto dei processi decisionali di Markov . Un MDP è una …
Nelle attività di apprendimento automatico è comune mescolare i dati e normalizzarli. Lo scopo della normalizzazione è chiaro (per avere lo stesso intervallo di valori di funzionalità). Ma, dopo aver lottato molto, non ho trovato alcun motivo valido per mescolare i dati. Ho letto questo post qui discutendo quando dobbiamo …
Nel contesto di Machine Learning , ho visto molto spesso il termine Ground Truth . Ho cercato molto e ho trovato la seguente definizione in Wikipedia : Nell'apprendimento automatico, il termine "verità di base" si riferisce all'accuratezza della classificazione del set di addestramento per le tecniche di apprendimento supervisionato. Questo …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.