Questa è una domanda generale che è stata posta indirettamente più volte qui, ma manca di un'unica risposta autorevole. Sarebbe bello avere una risposta dettagliata a questo per il riferimento. La precisione , la proporzione di classificazioni corrette tra tutte le classificazioni, è una misura molto semplice e molto "intuitiva", …
In precedenza l'ho chiesto su StackOverflow, ma sembra che qui potrebbe essere più appropriato, dato che non ha ricevuto risposte su SO. È una specie di incrocio tra statistica e programmazione. Ho bisogno di scrivere un po 'di codice per fare PCA (Analisi dei componenti principali). Ho sfogliato i noti …
Ho notato che ci sono alcune implementazioni di foreste casuali come ALGLIB, Waffles e alcuni pacchetti R come randomForest. Qualcuno può dirmi se queste librerie sono altamente ottimizzate? Sono sostanzialmente equivalenti alle foreste casuali descritte in dettaglio in The Elements of Statistical Learning o sono stati aggiunti molti trucchi extra? …
Uno dei maggiori problemi con l'analisi dei cluster è che potrebbe capitare di dover trarre conclusioni diverse quando si basano su diversi metodi di clustering utilizzati (inclusi diversi metodi di collegamento nel clustering gerarchico). Mi piacerebbe conoscere la tua opinione su questo - quale metodo sceglierai e come. Si potrebbe …
Di recente mi sono imbattuto in un documento che propone di utilizzare un classificatore k-NN su un set di dati specifico. Gli autori hanno utilizzato tutti i campioni di dati disponibili per eseguire la convalida incrociata k-fold per diversi valori k e riportare i risultati della convalida incrociata della migliore …
Come tutti sappiamo, ci sono 2 metodi per valutare il modello di regressione logistica e stanno testando cose molto diverse Potenza predittiva: Ottieni una statistica che misura la capacità di prevedere la variabile dipendente in base alle variabili indipendenti. I noti Pseudo R ^ 2 sono McFadden (1974) e Cox …
Mi occupo di un problema di rilevamento delle frodi (simile al credit scoring). Pertanto, esiste una relazione fortemente squilibrata tra osservazioni fraudolente e non fraudolente. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html offre un'ottima panoramica delle diverse metriche di classificazione. Precision and Recallo kappaentrambi sembrano essere una buona scelta: Un modo per giustificare i risultati di …
La competizione di Kaggle La previsione del pilota sicuro di Porto Seguro utilizza il punteggio Gini normalizzato come metrica di valutazione e questo mi ha incuriosito sulle ragioni di questa scelta. Quali sono i vantaggi dell'utilizzo del punteggio gini normalizzato anziché delle metriche più comuni, come l'AUC, per la valutazione?
Una misura comune utilizzata per confrontare due o più modelli di classificazione è utilizzare l'area sotto la curva ROC (AUC) come modo per valutare indirettamente le loro prestazioni. In questo caso, un modello con una AUC più grande viene generalmente interpretato come performante di un modello con una AUC più …
I coefficienti di correlazione phi e Matthews sono lo stesso concetto? In che modo sono correlati o equivalenti al coefficiente di correlazione di Pearson per due variabili binarie? Presumo che i valori binari siano 0 e 1. Correlazione di Pearson tra due variabili aleatorie di Bernoulli ed y è:xxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 …
Nella mia esposizione in classe al data mining, il metodo di controllo è stato introdotto come un modo per valutare le prestazioni del modello. Tuttavia, quando ho preso la mia prima classe sui modelli lineari, questo non è stato introdotto come mezzo di validazione o valutazione del modello. Anche la …
Volevo capire meglio il test esatto del pescatore, quindi ho escogitato il seguente esempio di giocattolo, dove f e m corrispondono a maschio e femmina e n e y corrispondono a "consumo di soda" in questo modo: > soda_gender f m n 0 5 y 5 0 Ovviamente, questa è …
Stavo leggendo le metriche di regressione nel manuale di Python Scikit-Learn e anche se ognuna di esse ha la sua formula, non posso dire intuitivamente qual è la differenza tra e il punteggio di varianza e quindi quando usare l'uno o l'altro per valutare i miei modelli.R2R2R^2
Questo è il punteggio F beta: Fβ= ( 1 + β2) ⋅ p r e c i s i o n ⋅ r e c a l l( β2⋅ p r e c i s i o n ) + r e c a l lFβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallF_\beta = (1 + \beta^2) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.