Un'attività che cerca modelli in set di dati complessi e di grandi dimensioni. Di solito enfatizza le tecniche algoritmiche, ma può anche coinvolgere qualsiasi insieme di competenze, applicazioni o metodologie correlate con tale obiettivo.
Il mio set di dati contiene un numero di attributi numerici e uno categoriale. Di ' NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, dove CategoricalAttrassume uno dei tre valori possibili: CategoricalAttrValue1, CategoricalAttrValue2o CategoricalAttrValue3. Sto usando l'implementazione predefinita dell'algoritmo di clustering k-means per Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Funziona solo con dati numerici. Quindi la …
Contesto del problema: sto lavorando a un progetto che prevede file di registro simili a quelli presenti nello spazio di monitoraggio IT (per la mia migliore comprensione dello spazio IT). Questi file di registro sono dati di serie temporali, organizzati in centinaia / migliaia di righe di vari parametri. Ogni …
Questa domanda è in risposta a un commento che ho visto su un'altra domanda. Il commento riguardava il programma del corso di Machine Learning su Coursera e sulla falsariga di "SVM non sono usati così tanto al giorno d'oggi". Ho appena terminato da solo le lezioni pertinenti e la mia …
Quando dico "documento", ho in mente pagine web come articoli di Wikipedia e notizie. Preferisco le risposte fornendo metriche della distanza lessicale vaniglia o metriche della distanza semantica all'avanguardia, con una preferenza più forte per quest'ultima.
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
Ho un ampio set di dati (circa 8 GB). Vorrei usare l'apprendimento automatico per analizzarlo. Quindi, penso che dovrei usare SVD quindi PCA per ridurre la dimensionalità dei dati per efficienza. Tuttavia, MATLAB e Octave non possono caricare un set di dati così grande. Quali strumenti posso usare per fare …
Il problema si riferisce alla costruzione di alberi decisionali. Secondo Wikipedia il " coefficiente di Gini " non deve essere confuso con "l' impurità di Gini ". Tuttavia, entrambe le misure possono essere utilizzate quando si costruisce un albero decisionale: possono supportare le nostre scelte quando si divide il set …
Non ero chiaro su un paio di concetti: XGBoost converte gli studenti deboli in studenti forti. Qual è il vantaggio di farlo? Combinando molti studenti deboli invece di usare un solo albero? La foresta casuale usa vari campioni dall'albero per creare un albero. Qual è il vantaggio di questo metodo …
Spero che tu mi possa aiutare, poiché ho alcune domande su questo argomento. Sono nuovo nel campo dell'apprendimento profondo e, mentre ho fatto alcuni tutorial, non riesco a mettere in relazione o distinguere i concetti gli uni dagli altri.
Sto imparando la fattorizzazione a matrice per i sistemi di raccomandazione e sto vedendo il termine latent featuresricorrere troppo frequentemente ma non riesco a capire cosa significhi. So cos'è una funzionalità ma non capisco l'idea di funzionalità latenti. Potresti spiegarlo, per favore? O almeno indicami un documento / un luogo …
Sono sicuro che la scienza dei dati, come sarà discusso in questo forum, ha diversi sinonimi o almeno campi correlati in cui vengono analizzati dati di grandi dimensioni. La mia domanda particolare riguarda il Data Mining. Ho preso un corso di laurea in Data Mining qualche anno fa. Quali sono …
sfondo Sto lavorando su una serie di dati di serie temporali di letture dei contatori di energia. La lunghezza della serie varia in base al metro - per alcuni ho diversi anni, altri solo pochi mesi, ecc. Molti mostrano una stagionalità significativa, e spesso più strati - entro il giorno, …
Sono interessato a sapere cosa succede realmente in Hellinger Distance (in termini semplici). Inoltre, sono anche interessato a sapere quali sono i tipi di problemi che possiamo usare Hellinger Distance? Quali sono i vantaggi dell'utilizzo di Hellinger Distance?
Sto cercando di trovare una formula, un metodo o un modello da utilizzare per analizzare la probabilità che un evento specifico abbia influenzato alcuni dati longitudinali. Sto avendo difficoltà a capire cosa cercare su Google. Ecco uno scenario di esempio: Immagina di possedere un'azienda che ha una media di 100 …
Recentemente ho trovato i termini Word2Vec , Sentence2Vec e Doc2Vec e un po 'confuso come io sono nuovo alla semantica vettoriali. Qualcuno può elaborare le differenze in questi metodi in parole semplici. Quali sono i compiti più adatti per ciascun metodo?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.