Scienza dei dati

Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo

La frequenza dei clic tiene conto della pertinenza?

Durante la creazione di un ranking, ad esempio per un motore di ricerca o un sistema di raccomandazione, è valido fare affidamento sulla frequenza dei clic per determinare la pertinenza di una voce?

17 recommender-system information-retrieval

Perché ReLU è migliore delle altre funzioni di attivazione

Qui la risposta si riferisce a gradienti che svaniscono ed esplodono che sono stati in sigmoidsimil-funzioni di attivazione ma, immagino, Reluha uno svantaggio ed è il suo valore atteso. non ci sono limiti per l'output di Relue quindi il suo valore atteso non è zero. Ricordo che la popolarità di …

17 machine-learning neural-network deep-learning gradient-descent activation-function

Doc2Vec - Come etichettare i paragrafi (gensim)

Mi chiedo come etichettare (taggare) frasi / paragrafi / documenti con doc2vec in gensim - da un punto di vista pratico. Devi avere ogni frase / paragrafo / documento con una propria etichetta univoca (ad esempio "Sent_123")? Questo sembra utile se vuoi dire "quali parole o frasi sono più simili …

17 machine-learning text-mining word-embeddings word2vec

Insaccamento vs abbandono in reti neurali profonde

Il bagging è la generazione di più predittori che funziona come un singolo predittore. Il dropout è una tecnica che insegna a una rete neurale come media di tutte le sottoreti possibili. Osservando le più importanti competizioni di Kaggle sembra che queste due tecniche vengano usate insieme molto spesso. Non …

17 machine-learning neural-network deep-learning

Che cosa significa la notazione mAP @ [. 5: .95]?

Per il rilevamento, un modo comune per determinare se una proposta di oggetto era corretta è Intersection over Union (IoU, IU). Questo prende l'insieme UNUNA dei pixel dell'oggetto proposti e l'insieme dei pixel dell'oggetto reale e calcola:BBB ioo U( A , B ) = A ∩ BA ∪ BiooU(UN,B)=UN∩BUN∪BIoU(A, B) …

17 computer-vision

K-significa: quali sono alcuni buoni modi per scegliere un insieme efficiente di centroidi iniziali?

Quando viene utilizzata un'inizializzazione casuale di centroidi, diverse esecuzioni di K significano diversi SSE totali. Ed è cruciale nelle prestazioni dell'algoritmo. Quali sono alcuni approcci efficaci per risolvere questo problema? Sono apprezzati gli approcci recenti.

17 data-mining clustering k-means

Algoritmi per il clustering di testo

Ho un problema nel raggruppare una grande quantità di frasi in gruppi in base al loro significato. Questo è simile a un problema quando hai molte frasi e vuoi raggrupparle in base al loro significato. Quali algoritmi sono suggeriti per fare questo? Non conosco il numero di cluster in anticipo …

17 clustering text-mining algorithms scikit-learn

I vicini più vicini cercano dati di dimensioni molto elevate

Ho una grande matrice sparsa di utenti e oggetti che gli piacciono (nell'ordine di 1 milione di utenti e 100.000 articoli, con un livello molto basso di scarsità). Sto esplorando i modi in cui potrei eseguire la ricerca kNN su di esso. Date le dimensioni del mio set di dati …

17 machine-learning distributed map-reduce dimensionality-reduction

Come dovrebbe essere applicata l'etica nella scienza dei dati

C'è stato un recente furore con la sperimentazione di Facebook sui loro utenti per vedere se potevano alterare le emozioni dell'utente e ora okcupid . Anche se non sono uno scienziato di dati professionale, ho letto sull'etica della scienza dei dati dal libro "Doing Data Science" di Cathy O'Neill e …

17 social-network-analysis

Livello di output aggiuntivo in una rete neurale (da decimale a binario)

Sto lavorando a una domanda dal libro online: http://neuralnetworksanddeeplearning.com/chap1.html Posso capire che se lo strato di output aggiuntivo è composto da 5 neuroni di output, probabilmente potrei impostare un bias a 0,5 e un peso di 0,5 ciascuno per lo strato precedente. Ma la domanda ora richiede un nuovo livello …

17 neural-network

Cosa usi per generare una dashboard in R?

Devo generare rapporti periodici (giornalieri, mensili) sul dashboard di analisi web. Saranno statici e non richiedono interazione, quindi immagina un file PDF come output di destinazione. I report mescoleranno tabelle e grafici (principalmente grafici sparkline e bullet creati con ggplot2). Pensa a dashboard stile Stephen Few / Perceptual Edge, come: …

17 r visualization

Visualizzazione di un grafico con un milione di vertici

Qual è lo strumento migliore da utilizzare per visualizzare (disegnare vertici e bordi) un grafico con 1000000 vertici? Ci sono circa 50000 spigoli nel grafico. E posso calcolare la posizione dei singoli vertici e bordi. Sto pensando di scrivere un programma per generare un svg. Altri suggerimenti?

17 visualization graphs

Rilevamento visivo dei gatti mediante rilevazione di anomalie

Ho un progetto di hobby che sto pensando di impegnarmi come un modo per aumentare la mia esperienza finora limitata di apprendimento automatico. Ho preso e completato il MOOC di Coursera sull'argomento. La mia domanda riguarda la fattibilità del progetto. L'attività è la seguente: Di tanto in tanto i gatti …

17 machine-learning

Usa liblinear su big data per analisi semantiche

Uso Libsvm per addestrare i dati e prevedere la classificazione sul problema dell'analisi semantica . Ma ha un problema di prestazioni su dati su larga scala, perché l'analisi semantica riguarda il problema della dimensione n . L'anno scorso è stato rilasciato Liblinear e può risolvere il collo di bottiglia delle …

17 machine-learning bigdata libsvm

Clustering basato su punteggi di somiglianza

Supponiamo di avere un insieme di elementi E ed una somiglianza ( non la distanza ) funzione sim (ei, ej) tra due elementi ei, ej ∈ E . Come potremmo (efficientemente) raggruppare gli elementi di E , usando sim ? k -means, ad esempio, richiede un dato k , Canopy …

17 clustering algorithms similarity

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.