Scienza dei dati

Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo



4
È necessario standardizzare i dati prima del clustering?
È necessario standardizzare i dati prima del cluster? Nell'esempio tratto da scikit learnDBSCAN, qui lo fanno nella riga: X = StandardScaler().fit_transform(X) Ma non capisco perché sia ​​necessario. Dopotutto, il clustering non presuppone una particolare distribuzione dei dati: è un metodo di apprendimento non supervisionato, quindi il suo obiettivo è quello …




4
XGBoost gestisce la multicollinearità da sola?
Attualmente sto usando XGBoost su un set di dati con 21 funzionalità (selezionate dall'elenco di circa 150 funzionalità), quindi le ho codificate a caldo per ottenere ~ 98 funzionalità. Alcune di queste 98 funzionalità sono in qualche modo ridondanti, ad esempio: una variabile (funzione) appare anche come e .UNUNABUNBUN\frac{B}{A}CUNCUN\frac{C}{A} Le …

2
Come utilizzare l'output di GridSearch?
Attualmente sto lavorando con Python e Scikit per imparare a fini di classificazione, e facendo alcune letture su GridSearch ho pensato che questo fosse un ottimo modo per ottimizzare i miei parametri di stima per ottenere i migliori risultati. La mia metodologia è questa: Dividi i miei dati in allenamento …




6
Condividere i quaderni Jupyter all'interno di una squadra
Vorrei installare un server in grado di supportare un team di data science nel modo seguente: essere un punto centrale per l'archiviazione, il versioning, la condivisione e la possibile esecuzione anche dei notebook Jupyter. Alcune proprietà desiderate: Diversi utenti possono accedere al server e aprire ed eseguire notebook memorizzati da …



5
Calcolo della divergenza di KL in Python
Sono piuttosto nuovo in questo e non posso dire di avere una completa comprensione dei concetti teorici alla base di questo. Sto cercando di calcolare la divergenza KL tra diversi elenchi di punti in Python. Sto usando http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html per provare a farlo. Il problema che sto incontrando è che il …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.