Scienza dei dati

Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo

Cosa rende i database colonnari adatti alla scienza dei dati?

Quali sono alcuni dei vantaggi degli archivi di dati colonnari che li rendono più adatti alla scienza e all'analisi dei dati?

23 databases tools

K-significa comportamento incoerente scegliendo K con metodo Elbow, BIC, varianza spiegata e silhouette

Sto cercando di raggruppare alcuni vettori con 90 funzioni con K-medie. Poiché questo algoritmo mi chiede il numero di cluster, voglio confermare la mia scelta con un po 'di matematica piacevole. Mi aspetto di avere da 8 a 10 cluster. Le funzionalità sono ridimensionate con punteggio Z. Spiegazione del metodo …

23 clustering k-means

È necessario standardizzare i dati prima del clustering?

È necessario standardizzare i dati prima del cluster? Nell'esempio tratto da scikit learnDBSCAN, qui lo fanno nella riga: X = StandardScaler().fit_transform(X) Ma non capisco perché sia necessario. Dopotutto, il clustering non presuppone una particolare distribuzione dei dati: è un metodo di apprendimento non supervisionato, quindi il suo obiettivo è quello …

23 python clustering clusters anomaly-detection

Scopo della visualizzazione di dati ad alta dimensione?

Esistono molte tecniche per visualizzare set di dati ad alta dimensione, come T-SNE, isomap, PCA, PCA supervisionato, ecc. E seguiamo i movimenti della proiezione dei dati in uno spazio 2D o 3D, quindi abbiamo una "bella immagine ". Alcuni di questi metodi di incorporamento (apprendimento multiplo) sono descritti qui . …

23 machine-learning dimensionality-reduction visualization

Come faccio a confrontare colonne in diversi frame di dati?

Vorrei confrontare una colonna di un df con altri df. Le colonne sono nomi e cognomi. Vorrei verificare se una persona in un frame di dati si trova in un altro.

23 pandas dataframe

Funzioni di codifica come mese e ora come categoriali o numeriche?

È meglio codificare funzioni come il mese e l'ora come fattore o numerico in un modello di apprendimento automatico? Da un lato, ritengo che la codifica numerica potrebbe essere ragionevole, perché il tempo è un processo che avanza in avanti (il quinto mese è seguito dal sesto mese), ma dall'altro …

23 machine-learning feature-extraction feature-engineering encoding numerical

XGBoost gestisce la multicollinearità da sola?

Attualmente sto usando XGBoost su un set di dati con 21 funzionalità (selezionate dall'elenco di circa 150 funzionalità), quindi le ho codificate a caldo per ottenere ~ 98 funzionalità. Alcune di queste 98 funzionalità sono in qualche modo ridondanti, ad esempio: una variabile (funzione) appare anche come e .UNUNABUNBUN\frac{B}{A}CUNCUN\frac{C}{A} Le …

23 feature-selection correlation xgboost gbm

Come utilizzare l'output di GridSearch?

Attualmente sto lavorando con Python e Scikit per imparare a fini di classificazione, e facendo alcune letture su GridSearch ho pensato che questo fosse un ottimo modo per ottimizzare i miei parametri di stima per ottenere i migliori risultati. La mia metodologia è questa: Dividi i miei dati in allenamento …

23 machine-learning cross-validation

Cos'è esattamente il bootstrap nell'apprendimento per rinforzo?

Apparentemente, nell'apprendimento per rinforzo, il metodo della differenza temporale (TD) è un metodo di bootstrap. D'altro canto, i metodi Monte Carlo non sono metodi di bootstrap. Che cos'è esattamente il bootstrap in RL? Che cos'è un metodo di bootstrap in RL?

23 reinforcement-learning

Qual è la codifica posizionale nel modello del trasformatore?

Sono nuovo di ML e questa è la mia prima domanda qui, quindi scusate se la mia domanda è sciocca. Sto cercando di leggere e comprendere il documento. L'attenzione è tutto ciò di cui hai bisogno e in essa c'è un'immagine: Non so cos'è la codifica posizionale . ascoltando alcuni …

23 nlp encoding attention-mechanism transformer

Trasformazione delle caratteristiche sui dati di input

Stavo leggendo la soluzione a questa sfida OTTO Kaggle e la soluzione al primo posto sembra utilizzare diverse trasformazioni per i dati di input X, ad esempio Log (X + 1), sqrt (X + 3/8), ecc. C'è un linea guida generale su quando applicare quali trasformazioni di tipo a vari …

22 machine-learning feature-extraction feature-scaling

Condividere i quaderni Jupyter all'interno di una squadra

Vorrei installare un server in grado di supportare un team di data science nel modo seguente: essere un punto centrale per l'archiviazione, il versioning, la condivisione e la possibile esecuzione anche dei notebook Jupyter. Alcune proprietà desiderate: Diversi utenti possono accedere al server e aprire ed eseguire notebook memorizzati da …

22 software-recommendation

Codifica di variabili categoriali utilizzando la stima della probabilità

Sto cercando di capire come posso codificare le variabili categoriali usando la stima della probabilità, ma finora ho avuto scarso successo. Ogni suggerimento sarà molto apprezzato.

22 feature-engineering

Perché funzionano le reti neurali convoluzionali?

Ho sentito spesso persone dire che il motivo per cui le reti neurali convoluzionali sono ancora poco comprese. È noto perché le reti neurali convoluzionali finiscono sempre per apprendere caratteristiche sempre più sofisticate mentre saliamo di livello? Cosa li ha spinti a creare una tale serie di funzionalità e questo …

22 machine-learning neural-network deep-learning convnet cnn

Calcolo della divergenza di KL in Python

Sono piuttosto nuovo in questo e non posso dire di avere una completa comprensione dei concetti teorici alla base di questo. Sto cercando di calcolare la divergenza KL tra diversi elenchi di punti in Python. Sto usando http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html per provare a farlo. Il problema che sto incontrando è che il …

22 python clustering scikit-learn

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.