Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo
Sto cercando di raggruppare alcuni vettori con 90 funzioni con K-medie. Poiché questo algoritmo mi chiede il numero di cluster, voglio confermare la mia scelta con un po 'di matematica piacevole. Mi aspetto di avere da 8 a 10 cluster. Le funzionalità sono ridimensionate con punteggio Z. Spiegazione del metodo …
È necessario standardizzare i dati prima del cluster? Nell'esempio tratto da scikit learnDBSCAN, qui lo fanno nella riga: X = StandardScaler().fit_transform(X) Ma non capisco perché sia necessario. Dopotutto, il clustering non presuppone una particolare distribuzione dei dati: è un metodo di apprendimento non supervisionato, quindi il suo obiettivo è quello …
Esistono molte tecniche per visualizzare set di dati ad alta dimensione, come T-SNE, isomap, PCA, PCA supervisionato, ecc. E seguiamo i movimenti della proiezione dei dati in uno spazio 2D o 3D, quindi abbiamo una "bella immagine ". Alcuni di questi metodi di incorporamento (apprendimento multiplo) sono descritti qui . …
Vorrei confrontare una colonna di un df con altri df. Le colonne sono nomi e cognomi. Vorrei verificare se una persona in un frame di dati si trova in un altro.
È meglio codificare funzioni come il mese e l'ora come fattore o numerico in un modello di apprendimento automatico? Da un lato, ritengo che la codifica numerica potrebbe essere ragionevole, perché il tempo è un processo che avanza in avanti (il quinto mese è seguito dal sesto mese), ma dall'altro …
Attualmente sto usando XGBoost su un set di dati con 21 funzionalità (selezionate dall'elenco di circa 150 funzionalità), quindi le ho codificate a caldo per ottenere ~ 98 funzionalità. Alcune di queste 98 funzionalità sono in qualche modo ridondanti, ad esempio: una variabile (funzione) appare anche come e .UNUNABUNBUN\frac{B}{A}CUNCUN\frac{C}{A} Le …
Attualmente sto lavorando con Python e Scikit per imparare a fini di classificazione, e facendo alcune letture su GridSearch ho pensato che questo fosse un ottimo modo per ottimizzare i miei parametri di stima per ottenere i migliori risultati. La mia metodologia è questa: Dividi i miei dati in allenamento …
Apparentemente, nell'apprendimento per rinforzo, il metodo della differenza temporale (TD) è un metodo di bootstrap. D'altro canto, i metodi Monte Carlo non sono metodi di bootstrap. Che cos'è esattamente il bootstrap in RL? Che cos'è un metodo di bootstrap in RL?
Sono nuovo di ML e questa è la mia prima domanda qui, quindi scusate se la mia domanda è sciocca. Sto cercando di leggere e comprendere il documento. L'attenzione è tutto ciò di cui hai bisogno e in essa c'è un'immagine: Non so cos'è la codifica posizionale . ascoltando alcuni …
Stavo leggendo la soluzione a questa sfida OTTO Kaggle e la soluzione al primo posto sembra utilizzare diverse trasformazioni per i dati di input X, ad esempio Log (X + 1), sqrt (X + 3/8), ecc. C'è un linea guida generale su quando applicare quali trasformazioni di tipo a vari …
Vorrei installare un server in grado di supportare un team di data science nel modo seguente: essere un punto centrale per l'archiviazione, il versioning, la condivisione e la possibile esecuzione anche dei notebook Jupyter. Alcune proprietà desiderate: Diversi utenti possono accedere al server e aprire ed eseguire notebook memorizzati da …
Sto cercando di capire come posso codificare le variabili categoriali usando la stima della probabilità, ma finora ho avuto scarso successo. Ogni suggerimento sarà molto apprezzato.
Ho sentito spesso persone dire che il motivo per cui le reti neurali convoluzionali sono ancora poco comprese. È noto perché le reti neurali convoluzionali finiscono sempre per apprendere caratteristiche sempre più sofisticate mentre saliamo di livello? Cosa li ha spinti a creare una tale serie di funzionalità e questo …
Sono piuttosto nuovo in questo e non posso dire di avere una completa comprensione dei concetti teorici alla base di questo. Sto cercando di calcolare la divergenza KL tra diversi elenchi di punti in Python. Sto usando http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html per provare a farlo. Il problema che sto incontrando è che il …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.