Statistiche e Big Data

5

La teoria della probabilità è lo studio di funzioni non negative che si integrano / sommano a una?

Questa è probabilmente una domanda sciocca, ma la teoria della probabilità è lo studio di funzioni che si integrano / sommano a una? MODIFICARE. Ho dimenticato la non negatività. Quindi la teoria della probabilità è lo studio di funzioni non negative che si integrano / sommano a una?

26 probability mathematical-statistics measure-theory

1

Quali sono le notazioni classiche in statistica, algebra lineare e machine learning? E quali sono le connessioni tra queste notazioni?

Quando leggiamo un libro, la comprensione delle notazioni gioca un ruolo molto importante nella comprensione dei contenuti. Sfortunatamente, comunità diverse hanno convenzioni di notazione diverse per la formulazione sul modello e il problema di ottimizzazione. Qualcuno potrebbe riassumere alcune notazioni di formulazione qui e fornire possibili ragioni? Faccio un esempio …

26 machine-learning probability self-study optimization

6

Come scegliere tra ROC AUC e punteggio F1?

Di recente ho completato una competizione Kaggle in cui è stato utilizzato il punteggio roc auc secondo i requisiti della competizione. Prima di questo progetto, normalmente utilizzavo il punteggio f1 come metrica per misurare le prestazioni del modello. Andando avanti, mi chiedo come dovrei scegliere tra queste due metriche? Quando …

26 machine-learning modeling roc scoring-rules

3

R caret e NAs

Preferisco di gran lunga il caret per la sua capacità di regolazione dei parametri e l'interfaccia uniforme, ma ho osservato che richiede sempre set di dati completi (cioè senza NA) anche se il modello "nudo" applicato consente le NA. Ciò è molto fastidioso, in quanto si dovrebbero applicare metodi di …

26 r missing-data data-imputation caret

3

Qual è la giustificazione bayesiana per le analisi privilegiate condotte prima di altre analisi?

Sfondo ed esempio empirico Ho due studi; Ho eseguito un esperimento (Studio 1) e poi l'ho replicato (Studio 2). Nello Studio 1, ho trovato un'interazione tra due variabili; nello Studio 2, questa interazione era nella stessa direzione ma non significativa. Ecco il riassunto del modello dello studio 1: Coefficients: Estimate …

26 bayesian

1

One-vs-All e One-vs-One in svm?

Qual è la differenza tra un classificatore SVM one-vs-all e uno-vs-one? One-vs-all significa un classificatore per classificare tutti i tipi / categorie della nuova immagine e one-vs-one significa ogni tipo / categoria di nuova immagine classificare con un diverso classificatore (ogni categoria è gestita da un classificatore speciale)? Ad esempio, …

26 machine-learning classification svm

1

Quale norma dell'errore di ricostruzione è minimizzata dalla matrice di approssimazione di basso rango ottenuta con PCA?

Dato un PCA (o SVD) ravvicinamento delle matrici XXX con una matrice X , sappiamo che X è la migliore approssimazione basso rango di X .X^X^\hat XX^X^\hat XXXX È questo secondo la norma ∥ ⋅ ∥ 2 indotta∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2 (ovvero la più grande norma sugli autovalori) o secondo la …

26 pca svd matrix-decomposition

7

Test di ipotesi di distribuzione - che senso ha farlo se non si riesce ad "accettare" la propria ipotesi nulla?

Vari test di ipotesi, come il test GOF, Kolmogorov-Smirnov, Anderson-Darling, ecc., Seguono questo formato di base:χ2χ2\chi^{2} H0H0H_0 : i dati seguono la distribuzione data. H1H1H_1 : i dati non seguono la distribuzione fornita. In genere, si valuta l'affermazione secondo cui alcuni dati dati seguono una determinata distribuzione e se si …

26 hypothesis-testing distributions goodness-of-fit ecdf

1

Relazione tra Bayes variazionale ed EM

Ho letto da qualche parte che il metodo Variational Bayes è una generalizzazione dell'algoritmo EM. In effetti, le parti iterative degli algoritmi sono molto simili. Per verificare se l'algoritmo EM è una versione speciale dei Bayes variazionali, ho provato quanto segue: è dato, X è la raccolta di variabili latenti …

26 bayesian expectation-maximization variational-bayes

5

Spiegazione intuitiva della convergenza nella distribuzione e convergenza nella probabilità

Qual è la differenza intuitiva tra una variabile casuale che converge in probabilità rispetto a una variabile casuale che converge in distribuzione? Ho letto numerose definizioni ed equazioni matematiche, ma questo non aiuta molto. (Tieni presente che sono uno studente universitario che studia economia.) Come può una variabile casuale convergere …

26 distributions random-variable convergence intuition

1

Earth Mover's Distance (EMD) tra due gaussiani

Esiste una formula in forma chiusa per (o una sorta di limite) dell'EMD tra x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1) e x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2) ?

26 normal-distribution distance

2

Perché l'LDA di Python-scikit-learning non funziona correttamente e come calcola l'LDA tramite SVD?

Stavo usando Linear Discriminant Analysis (LDA) dalla scikit-learnlibreria di machine learning (Python) per la riduzione della dimensionalità ed ero un po 'curioso dei risultati. Mi chiedo ora cosa scikit-learnstia facendo l'ADL in modo che i risultati appaiano diversi, ad esempio, da un approccio manuale o da un ADL fatto in …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

2

Tre versioni dell'analisi discriminante: differenze e come usarle

Qualcuno può spiegare le differenze e fornire esempi specifici su come utilizzare queste tre analisi? LDA - Analisi lineare discriminante FDA - Analisi discriminante di Fisher QDA - Quadratic Discriminant Analysis Ho cercato dappertutto, ma non sono riuscito a trovare esempi reali con valori reali per vedere come vengono utilizzate …

26 classification discriminant-analysis

5

Perché queste affermazioni non seguono logicamente da un IC al 95% in media?

Ho letto il documento di Hoekstra et al 2014 su "Robusta interpretazione errata degli intervalli di confidenza", che ho scaricato dal sito Web di Wagenmakers . Nella penultima pagina appare la seguente immagine. Secondo gli autori, False è la risposta corretta a tutte queste affermazioni. Non sono molto sicuro del …

26 hypothesis-testing confidence-interval

3

In che modo trovare il centroide è diverso dal trovare la media?

Quando si esegue il clustering gerarchico, è possibile utilizzare molte metriche per misurare la distanza tra i cluster. Due di queste metriche implicano il calcolo dei centroidi e la media dei punti dati nei cluster. Qual è la differenza tra la media e il centroide? Questi non sono lo stesso …

26 clustering mean