Le richieste di set di dati sono fuori tema su questo sito. Utilizzare questo tag per domande relative alla creazione, all'elaborazione o alla manutenzione di set di dati.
Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
Il set di dati "Iris" è probabilmente familiare alla maggior parte delle persone qui: è uno dei set di dati di test canonici e un set di dati di esempio per tutto, dalla visualizzazione dei dati all'apprendimento automatico. Ad esempio, tutti in questa domanda hanno finito per usarlo per una …
Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …
Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
Poiché la scienza deve essere riproducibile, per definizione, vi è un crescente riconoscimento del fatto che dati e codice sono una componente essenziale della riproducibilità, come discusso dalla tavola rotonda di Yale per la condivisione di dati e codice . Nel riesaminare un manoscritto per un giornale che non richiede …
In molte applicazioni di apprendimento automatico, i cosiddetti metodi di aumento dei dati hanno permesso di costruire modelli migliori. Ad esempio, supponi un set di addestramento di immagini di cani e gatti. Ruotando, specchiando, regolando il contrasto, ecc. È possibile generare immagini aggiuntive da quelle originali.100100100 Nel caso delle immagini, …
Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …
Ho fatto alcune ricerche su overfitting e underfitting e ho capito esattamente cosa sono, ma non riesco a trovare le ragioni. Quali sono i motivi principali per eccesso e insufficiente? Perché affrontiamo questi due problemi nella formazione di un modello?
Quali sono le principali differenze tra dati sparsi e dati mancanti? E come influenza l'apprendimento automatico? Più specificamente, quale effetto hanno i dati sparsi e quelli mancanti sugli algoritmi di classificazione e sul tipo di algoritmo di regressione (numeri predittivi). Sto parlando di una situazione in cui la percentuale di …
La "supervisione a distanza" è uno schema di apprendimento in cui viene appreso un classificatore in base a un set di formazione debolmente etichettato (i dati di training vengono etichettati automaticamente in base a euristiche / regole). Penso che sia l'apprendimento supervisionato sia l'apprendimento semi-supervisionato possano includere tale "supervisione a …
Sono nuovo di machine learning e cerco alcuni set di dati attraverso i quali posso confrontare e contrastare le differenze tra i diversi algoritmi di machine learning (Decision Trees, Boosting, SVM e Neural Networks) Dove posso trovare tali set di dati? Cosa dovrei cercare considerando un set di dati? Sarebbe …
Ho esaminato molti set di dati R, pubblicazioni in DASL e altrove e non sto trovando molti esempi validi di set di dati interessanti che illustrano l'analisi della covarianza per i dati sperimentali. Esistono numerosi set di dati "giocattolo" con dati inventati nei libri di testo delle statistiche. Vorrei fare …
sfondo Sto supervisionando l'inserimento di dati dalla letteratura primaria in un database . Il processo di immissione dei dati è soggetto a errori, in particolare perché gli utenti devono interpretare la progettazione sperimentale, estrarre dati da grafici e tabelle e trasformare i risultati in unità standardizzate. I dati vengono immessi …
Bloccato . Questa domanda e le sue risposte sono bloccate perché la domanda è fuori tema ma ha un significato storico. Al momento non accetta nuove risposte o interazioni. Sto cercando set di dati di social network (twitter, friendfeed, facebook, lastfm, ecc.) Per compiti di classificazione, preferibilmente in formato arff. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.