Un'attività che cerca modelli in set di dati complessi e di grandi dimensioni. Di solito enfatizza le tecniche algoritmiche, ma può anche coinvolgere qualsiasi insieme di competenze, applicazioni o metodologie correlate con tale obiettivo.
Quando viene utilizzata un'inizializzazione casuale di centroidi, diverse esecuzioni di K significano diversi SSE totali. Ed è cruciale nelle prestazioni dell'algoritmo. Quali sono alcuni approcci efficaci per risolvere questo problema? Sono apprezzati gli approcci recenti.
Sto lavorando per migliorare un classificatore supervisionato esistente, per classificare le sequenze di {proteine} come appartenenti a una classe specifica (precursori dell'ormone neuropeptide) o no. Esistono circa 1.150 "positivi" noti, su uno sfondo di circa 13 milioni di sequenze di proteine ("Sfondo sconosciuto / scarsamente annotato"), o circa 100.000 proteine …
Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …
Vorrei sapere in che modo esattamente i consigli basati sull'utente e quelli basati sugli articoli differiscono l'uno dall'altro. Lo definisce Basato sull'utente : consiglia gli articoli trovando utenti simili. Questo è spesso più difficile da ridimensionare a causa della natura dinamica degli utenti. Basato su articoli : calcola la somiglianza …
In quali casi è meglio usare un albero decisionale e altri casi un KNN? Perché usarne uno in alcuni casi? E l'altro in diversi casi? (Osservando la sua funzionalità, non l'algoritmo) Qualcuno ha qualche spiegazione o riferimenti a riguardo?
Sembra che sia diventato assiomatico che un insieme di discenti porti ai migliori risultati di modello possibili - e sta diventando molto più raro, ad esempio, per i singoli modelli vincere competizioni come Kaggle. C'è una spiegazione teorica del perché gli ensemble siano così dannatamente efficaci?
Ho un set di dati di utenti che acquistano prodotti da un sito Web. Gli attributi che ho sono ID utente, regione (stato) dell'utente, ID categorie di prodotto, ID parole chiave del prodotto, ID parole chiave del sito Web e importo delle vendite speso del prodotto. L'obiettivo è quello di …
Ho documenti di testo che contengono principalmente elenchi di articoli. Ogni elemento è un gruppo di più token di diversi tipi: Nome, Cognome, Data di nascita, Numero di telefono, Città, Occupazione, ecc. Un token è un gruppo di parole. Gli articoli possono trovarsi su più righe. Gli elementi di un …
Sto lavorando a un progetto di scienza dei dati relativo al mining delle relazioni sociali e ho bisogno di archiviare i dati in alcuni database di grafi. Inizialmente ho scelto Neo4j come database. Ma sembra che Neo4j non si ridimensioni bene. L'alternativa che ho scoperto sono Titan e oriebtDB. Ho …
Ho letto molti blog \ articoli su come i diversi tipi di settori utilizzano Big Data Analytic. Ma la maggior parte di questi articoli non menziona Che tipo di dati hanno usato queste aziende. Qual era la dimensione dei dati Che tipo di strumenti utilizzavano le tecnologie per elaborare i …
Sto leggendo una presentazione e mi consiglia di non utilizzare lasciare una codifica, ma va bene con una codifica a caldo. Pensavo fossero entrambi uguali. Qualcuno può descrivere quali sono le differenze tra loro?
Se ho un elenco molto lungo di nomi di documenti, come posso ottenere abstract di questi documenti da Internet o da qualsiasi database? I nomi dei documenti sono come "Valutazione dell'utilità nel Web Mining per il dominio della sanità pubblica". Qualcuno conosce qualche API che può darmi una soluzione? Ho …
Voglio indagare sul comportamento di determinazione dei prezzi delle compagnie aeree, in particolare su come le compagnie aeree reagiscono ai prezzi dei concorrenti. Come direi che la mia conoscenza di analisi più complesse è piuttosto limitata, ho fatto principalmente tutti i metodi di base per raccogliere una visione generale dei …
Per quanto ne so lo sviluppo di algoritmi per risolvere il problema Frequent Pattern Mining (FPM), la strada dei miglioramenti ha alcuni punti di controllo principali. In primo luogo, l' algoritmo Apriori è stato proposto nel 1993, da Agrawal et al. , insieme alla formalizzazione del problema. L'algoritmo è stato …
Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.