Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo
Uso Python per eseguire un modello di foresta casuale sul mio set di dati non bilanciato (la variabile di destinazione era una classe binaria). Quando ho diviso il set di dati di training e testing, ho faticato a usare il campionamento stratificato (come il codice mostrato) oppure no. Finora, ho …
Sembra che sia diventato assiomatico che un insieme di discenti porti ai migliori risultati di modello possibili - e sta diventando molto più raro, ad esempio, per i singoli modelli vincere competizioni come Kaggle. C'è una spiegazione teorica del perché gli ensemble siano così dannatamente efficaci?
Comprendo dall'articolo di Hinton che T-SNE fa un buon lavoro nel mantenere le somiglianze locali e un lavoro decente nel preservare la struttura globale (clusterizzazione). Tuttavia non sono chiaro se i punti che appaiono più vicini in una visualizzazione 2D t-sne possano essere assunti come punti di dati "più simili". …
Vorrei sapere come abbinare gli indirizzi postali quando il loro formato differisce o quando uno di essi è scritto male. Finora ho trovato diverse soluzioni, ma penso che siano piuttosto vecchie e non molto efficienti. Sono sicuro che esistono alcuni metodi migliori, quindi se hai dei riferimenti da leggere, sono …
Sto cercando di fare un cluster di k-medie su un insieme di punti 10-dimensionali. Il trucco: ci sono 10 ^ 10 punti . Sto cercando solo il centro e le dimensioni dei cluster più grandi (diciamo da 10 a 100 cluster); Non mi interessa in quale cluster finisce ogni punto. …
Sto lavorando a un problema di classificazione. Ho un set di dati contenente lo stesso numero di variabili categoriche e variabili continue. Come faccio a sapere quale tecnica utilizzare? tra un albero decisionale e una regressione logistica? È giusto supporre che la regressione logistica sarà più adatta per la variabile …
Ho un set di dati di utenti che acquistano prodotti da un sito Web. Gli attributi che ho sono ID utente, regione (stato) dell'utente, ID categorie di prodotto, ID parole chiave del prodotto, ID parole chiave del sito Web e importo delle vendite speso del prodotto. L'obiettivo è quello di …
Esistono librerie di apprendimento automatico per Ruby che sono relativamente complete (inclusa una vasta gamma di algoritmi per l'apprendimento supervisionato e non supervisionato), testate in modo solido e ben documentate? Adoro lo scikit-learning di Python per la sua incredibile documentazione, ma un cliente preferirebbe scrivere il codice in Ruby poiché …
Ho un set di dati con le seguenti specifiche: Set di dati di addestramento con 193.176 campioni con 2.821 positivi Set di dati di prova con 82.887 campioni con 673 positivi Ci sono 10 funzioni. Voglio eseguire una classificazione binaria (0 o 1). Il problema che sto affrontando è che …
Ho un set di dati binari altamente distorto: ho 1000 volte più esempi della classe negativa rispetto alla classe positiva. Vorrei addestrare un albero insieme (come alberi casuali extra o una foresta casuale) su questi dati, ma è difficile creare set di dati di addestramento che contengano abbastanza esempi della …
Sto cercando di capire come tutti i componenti dei "big data" giocano insieme in un caso d'uso reale, ad esempio hadoop, monogodb / nosql, storm, kafka, ... So che si tratta di una vasta gamma di strumenti utilizzati per tipi diversi, ma mi piacerebbe conoscere meglio la loro interazione con …
Per le reti neurali abbiamo il teorema di approssimazione universale che afferma che le reti neurali possono approssimare qualsiasi funzione continua su un sottoinsieme compatto di .RnRnR^n Esiste un risultato simile per gli alberi con gradiente aumentato? Sembra ragionevole poiché puoi continuare ad aggiungere più rami, ma non riesco a …
Sto addestrando una rete neurale convoluzionale per classificare le immagini in condizioni di nebbia (3 classi). Tuttavia, per ciascuna delle circa 150.000 immagini ho anche quattro variabili meteorologiche disponibili che potrebbero aiutare a prevedere le classi delle immagini. Mi chiedevo come avrei potuto aggiungere le variabili meteorologiche (ad es. Temperatura, …
Se guardo una delle molte fonti per le lezioni di Imagenet su Internet non riesco a trovare una sola classe legata agli esseri umani (e no, Harvestman non è qualcuno che raccoglie, ma è quello che sapevo come un papà longlegs, una specie di ragno :-). Come è possibile? Vorrei …
Ho due domande relative agli alberi decisionali: Se abbiamo un attributo continuo, come possiamo scegliere il valore di divisione? Esempio: Età = (20,29,50,40 ....) Immaginiamo di avere un attributo continuo che hanno valori in R . Come posso scrivere un algoritmo che trova il punto di divisione v , in …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.