Statistiche e Big Data

2

Perché una variabile casuale "binomiale negativa" si chiama così?

Non capisco perché la variabile casuale "binomiale negativa" abbia quel nome. Cosa c'è di negativo al riguardo? Cos'è il binomio al riguardo? Che cos'è il binomio negativo al riguardo?

21 distributions random-variable terminology negative-binomial

2

Quali sono i presupposti della regressione della cresta e come testarli?

Considera il modello standard per la regressione multipla dove , quindi valgono la normalità, l'omosedasticità e la non correlazione degli errori.ε ∼ N ( 0 , σ 2 I n )Y= Xβ+ εY=Xβ+εY=X\beta+\varepsilonε ∼ N( 0 , σ2ion)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Supponiamo di eseguire una regressione della cresta, aggiungendo …

21 regression assumptions ridge-regression

1

Devo prendere decisioni basate su misure di valutazione a media o macro media?

Ho eseguito una convalida incrociata di 10 volte su diversi algoritmi di classificazione binaria, con lo stesso set di dati, e ho ricevuto risultati medi sia su micro che su macro. Va detto che si trattava di un problema di classificazione multi-etichetta. Nel mio caso, i veri negativi e i …

21 machine-learning cross-validation

1

Perché il quasi-Poisson nella GLM non è trattato come un caso speciale di binomio negativo?

Sto cercando di adattare modelli lineari generalizzati ad alcune serie di dati di conteggio che potrebbero essere o meno sovradispersi. Le due distribuzioni canoniche che si applicano qui sono Poisson e Negative Binomial (Negbin), con EV e varianzaμμ\mu Va rP= μVun'rP=μVar_P = \mu Va rNB= μ + μ2θVun'rNB=μ+μ2θVar_{NB} = \mu …

21 r generalized-linear-model negative-binomial poisson-regression quasi-likelihood

2

Qual è la logica dietro il metodo dei momenti?

Perché in "Metodo dei momenti", equipariamo i momenti del campione ai momenti della popolazione per trovare lo stimatore del punto? Dov'è la logica dietro questo?

21 intuition method-of-moments

4

Perché i dati misti sono un problema per gli algoritmi di clustering basati su euclidi?

La maggior parte degli algoritmi classici di riduzione del clustering e della dimensionalità (clustering gerarchico, analisi dei componenti principali, k-media, mappe autoorganizzanti ...) sono progettati specificamente per i dati numerici e i loro dati di input sono visti come punti in uno spazio euclideo. Questo è ovviamente un problema, dato …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

4

Come testare se la mia distribuzione è multimodale?

Quando tracciamo un istogramma dei miei dati, ha due picchi: Significa una potenziale distribuzione multimodale? Ho eseguito in dip.testin R ( library(diptest)) e l'output è: D = 0.0275, p-value = 0.7913 Posso concludere che i miei dati hanno una distribuzione multimodale? DATI 10346 13698 13894 19854 28066 26620 27066 16658 …

21 r hypothesis-testing distributions self-study histogram

3

Strane correlazioni nei risultati SVD di dati casuali; hanno una spiegazione matematica o è un bug LAPACK?

Osservo un comportamento molto strano nel risultato SVD di dati casuali, che posso riprodurre sia in Matlab che in R. Sembra un problema numerico nella libreria LAPACK; è? Traccio n=1000n=1000n=1000 campioni dal k=2k=2k=2 gaussiano dimensionale con zero covarianza di identità e media: X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I) . Li …

21 pca svd linear-algebra numerics

4

Come posso calcolare gli intervalli di confidenza per una distribuzione non normale?

Ho 383 campioni che hanno un forte pregiudizio per alcuni valori comuni, come calcolerei l'IC 95% per la media? L'IC che ho calcolato sembra molto lontano, il che presumo sia perché i miei dati non sembrano una curva quando faccio un istogramma. Quindi penso di dover usare qualcosa come il …

21 confidence-interval mean

2

Nella semplice regressione lineare, da dove viene la formula per la varianza dei residui?

Secondo un testo che sto usando, la formula per la varianza del residuo è data da:ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) Trovo che questo sia difficile da credere dal momento che la residuo è la differenza tra il valore osservato e il valore stimato; se si calcolasse la varianza della …

21 regression variance residuals

3

Significato di "numero di parametri" in AIC

Quando si calcola AIC, AIC=2k−2lnLAIC=2k−2lnLAIC = 2k - 2 ln L k significa "numero di parametri". Ma cosa conta come parametro? Quindi ad esempio nel modello y=ax+by=ax+by = ax + b A e b sono sempre conteggiati come parametri? Cosa succede se non mi interessa il valore dell'intercetta, posso ignorarlo …

21 aic

2

Come descrivere o visualizzare un modello di regressione lineare multipla

Sto cercando di adattare un modello di regressione lineare multipla ai miei dati con un paio di parametri di input, diciamo 3. F( x )F( x )= A x1+ B x2+ CX3+ do= ( A B C )T( x1 X2 X3) + d(io)(Ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 …

21 regression data-visualization multiple-regression communication

2

Cosa si intende per errore standard di una stima della massima verosimiglianza?

Sono un matematico che studia da solo le statistiche e in particolare con la lingua. Nel libro che sto usando, c'è il seguente problema: Una variabile casuale XXX è data come Pareto ( α , 60 )Pareto(α,60)\text{Pareto}(\alpha,60) -distribuito con α > 0α>0\alpha>0 . (Naturalmente, potresti prendere qualsiasi distribuzione a seconda …

21 maximum-likelihood

4

Qual è la differenza tra standardizzazione e studentizzazione?

Nella varianza della standardizzazione è noto mentre nella studentizzazione non è noto e quindi stimato? Grazie.

21 standardization

2

Se il clustering k-mean è una forma di modellizzazione della miscela gaussiana, può essere usato quando i dati non sono normali?

Sto leggendo Bishop sull'algoritmo EM per GMM e la relazione tra GMM e k-mean. In questo libro si dice che k-mean è una versione difficile di GMM. Mi chiedo questo implica che se i dati che sto cercando di raggruppare non sono gaussiani, non posso usare k-mean (o almeno non …

21 clustering data-mining k-means gaussian-mixture