Statistiche e Big Data gini

2

Qual è la relazione tra il punteggio GINI e il rapporto log-verosimiglianza

Sto studiando gli alberi di classificazione e regressione e una delle misure per la posizione divisa è il punteggio GINI. Ora sono abituato a determinare la migliore posizione divisa quando il registro del rapporto di verosimiglianza degli stessi dati tra due distribuzioni è zero, il che significa che la probabilità …

21 cart likelihood-ratio information-theory kullback-leibler gini

1

La foresta casuale di Breiman utilizza il guadagno di informazioni o l'indice Gini?

Vorrei sapere se la foresta casuale di Breiman (foresta casuale nel pacchetto R randomForest) utilizza come criterio di suddivisione (criterio per la selezione degli attributi) guadagno di informazioni o indice Gini? Ho provato a scoprirlo su http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm e nella documentazione per il pacchetto randomForest in R. Ma l'unica cosa che …

15 r random-forest entropy gini

1

logloss vs gini / auc

Ho addestrato due modelli (classificatori binari usando h2o AutoML) e voglio selezionarne uno da usare. Ho i seguenti risultati: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 le colonne auce loglosssono le metriche di convalida incrociata (la …

15 model-selection validation auc gini log-loss

1

Perché utilizzare il punteggio Gini normalizzato invece dell'AUC come valutazione?

La competizione di Kaggle La previsione del pilota sicuro di Porto Seguro utilizza il punteggio Gini normalizzato come metrica di valutazione e questo mi ha incuriosito sulle ragioni di questa scelta. Quali sono i vantaggi dell'utilizzo del punteggio gini normalizzato anziché delle metriche più comuni, come l'AUC, per la valutazione?

14 classification auc model-evaluation gini

1

Qual è la differenza tra l'interpretazione della curva GINI e AUC?

abbiamo usato per creare la curva GINI usando l'ascensore creato con l'aiuto della percentuale di buono e cattivo per la modellazione di scorecard. Ma quello che ho studiato è che la curva ROC viene creata usando la matrice di confusione con Specificità (1- Vero negativo) come asse x e sensibilità …

13 roc gini

3

La differenza sta nelle statistiche riassuntive: coefficiente di Gini e deviazione standard

Esistono diverse statistiche di riepilogo. Quando si desidera descrivere la diffusione di una distribuzione, è possibile utilizzare ad esempio la deviazione standard o il coefficiente di Gini . So che la deviazione standard si basa sulla tendenza centrale, cioè la deviazione dalla media, e il coefficiente di Gini una misurazione …

12 standard-deviation descriptive-statistics gini

4

Cerchi di calcolare l'indice Gini sulla distribuzione della reputazione StackOverflow?

Sto cercando di calcolare l'indice Gini sulla distribuzione della reputazione SO utilizzando SO Data Explorer. L'equazione che sto cercando di implementare è questa: Dove: = numero di utenti sul sito; = ID seriale utente (1 - 1.225.000); = reputazione dell'utente .niyiiG ( S) = 1n - 1( n + 1 …

11 gini

1

Coefficiente gini e limiti di errore

Ho una serie temporale di dati con conteggi N = 14 in ciascun punto temporale e desidero calcolare il coefficiente di Gini e un errore standard per questa stima in ogni punto temporale. Dato che ho solo N = 14 conteggi in ogni momento ho proceduto calcolando la varianza del …

11 r variance econometrics resampling gini

5

Come misurare la dispersione nei dati sulla frequenza delle parole?

Come posso quantificare la quantità di dispersione in un vettore di conteggi di parole? Sto cercando una statistica che sarà alta per il documento A, perché contiene molte parole diverse che si verificano raramente e bassa per il documento B, perché contiene una parola (o poche parole) che si presentano …

10 variance natural-language gini dispersion bag-of-words

1

Come confrontare gli eventi osservati con quelli previsti?

Supponiamo di avere un campione di frequenze di 4 possibili eventi: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e ho le probabilità attese dei miei eventi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la somma delle frequenze osservate dei …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

Domande taggate «gini»