Un set di dati è una raccolta di dati, spesso in forma tabellare o matrice. Questo tag NON è destinato alle richieste di dati ("dove posso trovare un set di dati su ...") -> vedi OpenData
Uno dei problemi comuni nella scienza dei dati è la raccolta di dati da varie fonti in un formato in qualche modo pulito (semi-strutturato) e la combinazione di metriche da varie fonti per effettuare un'analisi di livello superiore. Osservando lo sforzo degli altri, in particolare altre domande su questo sito, …
Il mio compito di "machine learning" è quello di separare il traffico Internet benigno dal traffico malevolo. Nello scenario del mondo reale, la maggior parte (diciamo del 90% o più) del traffico Internet è benigna. Quindi ho sentito che avrei dovuto scegliere una configurazione di dati simile per addestrare anche …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
Ho un problema di classificazione con circa 1000 campioni positivi e 10000 negativi nel set di allenamento. Quindi questo set di dati è abbastanza sbilanciato. La semplice foresta casuale sta solo cercando di contrassegnare tutti i campioni di test come una classe di maggioranza. Ecco alcune buone risposte sul sottocampionamento …
Come estensione del nostro fantastico elenco di set di dati disponibili pubblicamente , vorrei sapere se esiste un elenco di set di dati di social network / API di scansione disponibili pubblicamente. Sarebbe molto bello se accanto a un collegamento al set di dati / API, fossero aggiunte le caratteristiche …
Una tecnica comune dopo l'addestramento, la convalida e il test del modello di preferenza di Machine Learning consiste nell'utilizzare il set di dati completo, incluso il sottoinsieme di test, per formare un modello finale su cui distribuirlo , ad esempio un prodotto. La mia domanda è: è sempre il meglio …
Chiuso . Questa domanda è basata sull'opinione . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che possa essere risolta con fatti e citazioni modificando questo post . Chiuso 5 anni fa . Non so se questo sia il posto giusto per porre questa …
In generale, il modello di apprendimento automatico è basato su set di dati. Vorrei sapere se esiste un modo per generare un set di dati sintetico utilizzando un modello di apprendimento automatico addestrato che preservi le caratteristiche del set di dati originale? [dati originali -> costruisci modello di apprendimento automatico …
Attualmente sto cercando set di dati etichettati per addestrare un modello per estrarre entità nominate dal testo informale (qualcosa di simile ai tweet). Poiché i documenti nel mio set di dati mancano spesso di lettere maiuscole e grammaticali, sto cercando dati di dominio un po 'più "informali" rispetto all'articolo di …
Sto lavorando a una sfida di Kaggle in cui alcune variabili sono rappresentate da righe anziché da colonne (interruzione della rete Telstra). Attualmente sto cercando l'equivalente di gather (), separate () e spread (), che si trova nello strumento R tidyr.
Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …
Spero che questa domanda sia la più adatta in questo sito ... In Python, di solito il nome della classe viene definito usando la lettera maiuscola come primo carattere, ad esempio class Vehicle: ... Tuttavia, nel campo dell'apprendimento automatico, spesso i dati di treno e test sono definiti come Xe …
Se guardo una delle molte fonti per le lezioni di Imagenet su Internet non riesco a trovare una sola classe legata agli esseri umani (e no, Harvestman non è qualcuno che raccoglie, ma è quello che sapevo come un papà longlegs, una specie di ragno :-). Come è possibile? Vorrei …
Sono un principiante nell'apprendimento automatico e sto affrontando una situazione. Sto lavorando a un problema di offerta in tempo reale, con il set di dati IPinYou e sto provando a fare una previsione di clic. Il fatto è che, come forse saprai, il set di dati è molto sbilanciato: circa …
Ho una serie di risultati da un test A / B (un gruppo di controllo, un gruppo di funzioni) che non rientrano in una distribuzione normale. In effetti la distribuzione ricorda più da vicino la distribuzione di Landau. Credo che il test t indipendente richieda che i campioni siano almeno …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.