Statistiche e Big Data

3

Regressione polinomiale usando scikit-learn

Sto cercando di usare scikit-learn per la regressione polinomiale. Da quello che leggo la regressione polinomiale è un caso speciale di regressione lineare. Stavo pensando che forse uno dei modelli lineari generalizzati di scikit possa essere parametrizzato per adattarsi a polinomi di ordine superiore ma non vedo alcuna opzione per …

29 regression machine-learning large-data polynomial scikit-learn

2

Come confrontare statisticamente le prestazioni dei classificatori di machine learning?

Sulla base dell'accuratezza della classificazione stimata, voglio verificare se un classificatore è statisticamente migliore su un set di base rispetto a un altro classificatore. Per ogni classificatore, seleziono un campione di addestramento e test in modo casuale dal set di base, addestra il modello e collaudo il modello. Lo faccio …

29 machine-learning classification t-test

3

K-fold vs. convalida incrociata Monte Carlo

Sto cercando di apprendere vari metodi di convalida incrociata, principalmente con l'intenzione di applicare a tecniche di analisi multivariate supervisionate. Due che ho incontrato sono le tecniche di convalida incrociata K-fold e Monte Carlo. Ho letto che K-fold è una variante di Monte Carlo ma non sono sicuro di aver …

29 cross-validation monte-carlo

2

Scelta di una larghezza di banda per gli stimatori della densità del kernel

Per gli stimatori univariati della densità del kernel (KDE), uso la regola di Silverman per il calcolo di :hhh 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Quali sono le regole standard per KDE multivariata (assumendo un kernel normale).

29 smoothing kernel-smoothing

3

R: Random Forest lancia NaN / Inf nell'errore di "richiamo della funzione esterna" nonostante nessuna NaN nel set di dati [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Sto usando il cursore per eseguire una foresta casuale convalidata in modo incrociato su un set di …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

cosa significano i numeri nel rapporto di classificazione di sklearn?

Ho un esempio che ho tratto dalla documentazione sklearn.metrics.classification_report di sklearn. Quello che non capisco è perché ci sono valori di f1, precisione e valori di richiamo per ogni classe in cui credo che la classe sia l'etichetta predittore? Ho pensato che il punteggio f1 ti dicesse l'accuratezza complessiva del …

29 machine-learning python scikit-learn precision-recall

4

Come viene derivata la funzione di costo dalla regressione logistica

Sto facendo il corso di Machine Learning Stanford su Coursera. Nel capitolo sulla regressione logistica, la funzione di costo è questa: Quindi, è derivato qui: Ho provato a ottenere la derivata della funzione di costo ma ho ottenuto qualcosa di completamente diverso. Come si ottiene il derivato? Quali sono i …

29 regression logistic gradient-descent derivative

4

Perché Andrew Ng preferisce utilizzare SVD e non EIG della matrice di covarianza per fare PCA?

Sto studiando PCA dal corso Coursera di Andrew Ng e altri materiali. Nel primo incarico di Stanford sulla PNL cs224n , e nel video della lezione di Andrew Ng , fanno una scomposizione di valore singolare invece della decomposizione di autovettori della matrice di covarianza, e Ng dice persino che …

29 pca linear-algebra svd eigenvalues numerics

3

Convalida incrociata tra cui formazione, convalida e test. Perché abbiamo bisogno di tre sottoinsiemi?

Ho una domanda relativa al processo di convalida incrociata. Sono nel mezzo di un corso di Machine Learning on the Cursera. Uno degli argomenti riguarda la convalida incrociata. L'ho trovato leggermente difficile da seguire. So perché abbiamo bisogno del CV perché vogliamo che i nostri modelli funzionino bene su dati …

29 machine-learning cross-validation

2

Errore "sistema computazionalmente singolare" quando si esegue un glm

Sto usando il pacchetto robustbase per eseguire una stima glm. Tuttavia quando lo faccio, ottengo il seguente errore: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Cosa significa / indica? E come posso eseguire il debug? PS. Se hai bisogno di …

29 r generalized-linear-model robust

3

Perché l'AUC è più alta per un classificatore meno accurato rispetto a uno più accurato?

Ho due classificatori A: ingenua rete bayesiana B: rete bayesiana ad albero (collegata singolarmente) In termini di accuratezza e altre misure, A si comporta in modo relativamente peggiore di B. Tuttavia, quando utilizzo i pacchetti R ROCR e AUC per eseguire l'analisi ROC, si scopre che l'AUC per A è …

29 machine-learning classification roc auc bayesian-network

4

Come si misura la non uniformità di una distribuzione?

Sto cercando di elaborare una metrica per misurare la non uniformità di una distribuzione per un esperimento che sto eseguendo. Ho una variabile casuale che dovrebbe essere uniformemente distribuita nella maggior parte dei casi e mi piacerebbe essere in grado di identificare (e possibilmente misurare il grado di) esempi di …

28 distributions variance random-variable uniform

2

Statistics.com ha pubblicato la risposta sbagliata?

Statistics.com ha pubblicato un problema della settimana: il tasso di frode assicurativa residenziale è del 10% (uno su dieci è fraudolento). Un consulente ha proposto un sistema di apprendimento automatico per esaminare i reclami e classificarli come frodi o no. Il sistema è efficace al 90% nel rilevare i reclami …

28 probability bayesian puzzle

3

Perché una miscela di due variabili normalmente distribuite è bimodale solo se i loro mezzi differiscono di almeno due volte la deviazione standard comune?

Sotto miscela di due distribuzioni normali: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "Una miscela di due distribuzioni normali ha cinque parametri da stimare: i due mezzi, le due varianze e il parametro di miscelazione. Una miscela di due distribuzioni normali con deviazioni standard uguali è bimodale solo se i loro mezzi differiscono di almeno il …

28 bimodal

4

Estrapolazione v. Interpolazione

Qual è la differenza tra estrapolazione e interpolazione e qual è il modo più preciso di usare questi termini? Ad esempio, ho visto una dichiarazione in un documento usando l'interpolazione come: "La procedura interpola la forma della funzione stimata tra i punti bin" Una frase che utilizza sia l'estrapolazione che …

28 terminology interpolation extrapolation