Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


1
Quali sono le notazioni classiche in statistica, algebra lineare e machine learning? E quali sono le connessioni tra queste notazioni?
Quando leggiamo un libro, la comprensione delle notazioni gioca un ruolo molto importante nella comprensione dei contenuti. Sfortunatamente, comunità diverse hanno convenzioni di notazione diverse per la formulazione sul modello e il problema di ottimizzazione. Qualcuno potrebbe riassumere alcune notazioni di formulazione qui e fornire possibili ragioni? Faccio un esempio …

6
Come scegliere tra ROC AUC e punteggio F1?
Di recente ho completato una competizione Kaggle in cui è stato utilizzato il punteggio roc auc secondo i requisiti della competizione. Prima di questo progetto, normalmente utilizzavo il punteggio f1 come metrica per misurare le prestazioni del modello. Andando avanti, mi chiedo come dovrei scegliere tra queste due metriche? Quando …

3
R caret e NAs
Preferisco di gran lunga il caret per la sua capacità di regolazione dei parametri e l'interfaccia uniforme, ma ho osservato che richiede sempre set di dati completi (cioè senza NA) anche se il modello "nudo" applicato consente le NA. Ciò è molto fastidioso, in quanto si dovrebbero applicare metodi di …


1
One-vs-All e One-vs-One in svm?
Qual è la differenza tra un classificatore SVM one-vs-all e uno-vs-one? One-vs-all significa un classificatore per classificare tutti i tipi / categorie della nuova immagine e one-vs-one significa ogni tipo / categoria di nuova immagine classificare con un diverso classificatore (ogni categoria è gestita da un classificatore speciale)? Ad esempio, …


7
Test di ipotesi di distribuzione - che senso ha farlo se non si riesce ad "accettare" la propria ipotesi nulla?
Vari test di ipotesi, come il test GOF, Kolmogorov-Smirnov, Anderson-Darling, ecc., Seguono questo formato di base:χ2χ2\chi^{2} H0H0H_0 : i dati seguono la distribuzione data. H1H1H_1 : i dati non seguono la distribuzione fornita. In genere, si valuta l'affermazione secondo cui alcuni dati dati seguono una determinata distribuzione e se si …


5
Spiegazione intuitiva della convergenza nella distribuzione e convergenza nella probabilità
Qual è la differenza intuitiva tra una variabile casuale che converge in probabilità rispetto a una variabile casuale che converge in distribuzione? Ho letto numerose definizioni ed equazioni matematiche, ma questo non aiuta molto. (Tieni presente che sono uno studente universitario che studia economia.) Come può una variabile casuale convergere …


2
Perché l'LDA di Python-scikit-learning non funziona correttamente e come calcola l'LDA tramite SVD?
Stavo usando Linear Discriminant Analysis (LDA) dalla scikit-learnlibreria di machine learning (Python) per la riduzione della dimensionalità ed ero un po 'curioso dei risultati. Mi chiedo ora cosa scikit-learnstia facendo l'ADL in modo che i risultati appaiano diversi, ad esempio, da un approccio manuale o da un ADL fatto in …




Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.