Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati



6
In che modo gli scienziati hanno scoperto la forma della normale funzione di densità di probabilità di distribuzione?
Questa è probabilmente una domanda amatoriale, ma sono interessato a come gli scienziati hanno ideato la forma della normale funzione di densità di probabilità di distribuzione? Fondamentalmente ciò che mi dà fastidio è che per qualcuno sarebbe forse più intuitivo che la funzione di probabilità dei dati normalmente distribuiti abbia …


1
Qual è la differenza tra i campionamenti di Metropolis Hastings, Gibbs, Importance e Rejection?
Ho cercato di apprendere i metodi MCMC e mi sono imbattuto nel campionamento di Metropolis Hastings, Gibbs, Importance e Rejection. Mentre alcune di queste differenze sono ovvie, cioè come Gibbs sia un caso speciale di Metropolis Hastings quando abbiamo i condizionali completi, le altre sono meno ovvie, come quando vogliamo …

1
Quando è davvero necessaria la validazione incrociata nidificata e può fare la differenza pratica?
Quando si utilizza la convalida incrociata per effettuare la selezione del modello (come ad esempio la regolazione dell'iperparametro) e per valutare le prestazioni del modello migliore, è necessario utilizzare la convalida incrociata nidificata . L'anello esterno serve per valutare le prestazioni del modello e l'anello interno deve selezionare il modello …

6
Perché il denominatore dello stimatore della covarianza non dovrebbe essere n-2 anziché n-1?
Il denominatore dello stimatore di varianza (imparziale) è quanto vi sono osservazioni e viene stimato solo un parametro.n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Allo stesso modo, mi chiedo perché il denominatore di covarianza non dovrebbe essere quando vengono stimati due parametri?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

5
Il valore p è essenzialmente inutile e pericoloso da usare?
Questo articolo " The Odds, continuamente aggiornato" dal NY Times è successo per attirare la mia attenzione. Per essere brevi, afferma che [Le statistiche bayesiane] si stanno rivelando particolarmente utili per affrontare problemi complessi, comprese ricerche come quella che la Guardia Costiera ha usato nel 2013 per trovare il pescatore …

2
Quanto sono affidabili gli intervalli di confidenza per gli oggetti lmer attraverso il pacchetto effetti?
EffectsIl pacchetto fornisce un modo molto veloce e conveniente per tracciare risultati di modelli a effetto misto lineare ottenuti attraverso il lme4pacchetto . La effectfunzione calcola gli intervalli di confidenza (IC) molto rapidamente, ma quanto sono affidabili questi intervalli di confidenza? Per esempio: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength …

6
Come posso dimostrare analiticamente che la divisione casuale di un importo si traduce in una distribuzione esponenziale (ad esempio reddito e ricchezza)?
In questo attuale articolo di SCIENCE viene proposto quanto segue: Supponiamo di dividere casualmente 500 milioni di entrate tra 10.000 persone. C'è solo un modo per dare a tutti una quota pari a 50.000. Quindi, se stai distribuendo i guadagni in modo casuale, l'uguaglianza è estremamente improbabile. Ma ci sono …

5
Il significato di "dipendenza positiva" come condizione per utilizzare il solito metodo per il controllo FDR
Benjamini e Hochberg hanno sviluppato il primo (e ancora più ampiamente usato, credo) metodo per controllare il tasso di scoperta falsa (FDR). Voglio iniziare con un gruppo di valori P, ciascuno per un confronto diverso, e decidere quali sono abbastanza bassi da essere chiamati una "scoperta", controllando l'FDR su un …


4
Come interpretare i coefficienti dall'adattamento di un modello polinomiale?
Sto cercando di creare un polinomio del secondo ordine adatto ad alcuni dati che ho. Diciamo che ho tracciato questo adattamento con ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) Ottengo: Quindi, un secondo ordine funziona abbastanza bene. Lo calcolo con R: summary(lm(data$bar ~ poly(data$foo, 2))) E ottengo: …



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.