Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati



2
Perché la prova di Wilks del 1938 non funziona per i modelli non specificati?
Nel famoso articolo del 1938 (" La grande distribuzione del rapporto di verosimiglianza per il test di ipotesi composite ", Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks derivò la distribuzione asintotica di (log verosimiglianza) per ipotesi nidificate, presupponendo che l'ipotesi più ampia sia specificata correttamente. La distribuzione limite è …


2
Definizione del tempo di autocorrelazione (per dimensioni del campione effettive)
Ho trovato due definizioni in letteratura per il tempo di autocorrelazione di una serie temporale debolmente stazionaria: τun'= 1 + 2 ∑k = 1∞ρKcontroτB= 1 + 2 ∑k = 1∞|ρK|τun'=1+2ΣK=1∞ρKcontroτB=1+2ΣK=1∞|ρK| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| dove è l'autocorrelazione al ritardok. ρK= Cov [ Xt, …

3
Interpretazione statistica della massima distribuzione di entropia
Ho usato il principio della massima entropia per giustificare l'uso di diverse distribuzioni in vari contesti; tuttavia, devo ancora essere in grado di formulare un'interpretazione statistica, al contrario di quella teorica dell'informazione, della massima entropia. In altre parole, cosa implica massimizzare l'entropia riguardo alle proprietà statistiche della distribuzione? Qualcuno ha …




1
Kolmogorov-Smirnov con dati discreti: qual è l'uso corretto di dgof :: ks.test in R?
Domande per principianti: Voglio verificare se due set di dati discreti provengono dalla stessa distribuzione. Mi è stato suggerito un test di Kolmogorov-Smirnov. Conover ( Practical Nonparametric Statistics , 3d) sembra dire che il test di Kolmogorov-Smirnov può essere utilizzato per questo scopo, ma il suo comportamento è "conservativo" con …

2
Foreste casuali per regressione multivariata
Ho un problema di regressione multi-output con input e output . Gli output hanno una struttura di correlazione complessa, non lineare.dXdXd_xdydyd_y Vorrei usare foreste casuali per fare la regressione. Per quanto ne so, le foreste casuali per la regressione funzionano solo con un singolo output, quindi dovrei addestrare foreste casuali …

4
Imputazione di valori mancanti per PCA
Ho usato la prcomp()funzione per eseguire un PCA (analisi del componente principale) in R. Tuttavia, c'è un bug in quella funzione in modo che il na.actionparametro non funzioni. Ho chiesto aiuto su stackoverflow ; due utenti hanno offerto due modi diversi di trattare i NAvalori. Tuttavia, il problema con entrambe …

3
Interpretazione dei numeri AIC e BIC
Sto cercando esempi su come interpretare le stime AIC (criterio di informazione Akaike) e BIC (criterio di informazione bayesiano). La differenza negativa tra i BIC può essere interpretata come la probabilità posteriore di un modello rispetto all'altro? Come posso dirlo a parole? Ad esempio il BIC = -2 può implicare …

1
Impostazione di nodi in spline cubiche naturali in R
Ho dati con molte funzionalità correlate e voglio iniziare riducendo le funzionalità con una funzione base, prima di eseguire un LDA. Sto cercando di utilizzare spline cubiche naturali nel splinespacchetto con la nsfunzione. Come posso fare per assegnare i nodi? Ecco il codice R di base: library(splines) lda.pred <- lda(y …
23 r  splines 

3
Perché abbattere il denominatore nel teorema di Bayes?
(Sono un principiante alle statistiche. Sono un matematico e un programmatore e sto cercando di creare qualcosa di simile a un ingenuo filtro antispam bayesiano.) Ho notato in molti luoghi che le persone tendono a scomporre il denominatore nell'equazione del Teorema di Bayes. Quindi invece di questo: P(A|B)⋅P(B)P(A)P(A|B)⋅P(B)P(A)\frac{P(A|B)\cdot P(B)}{P(A)} Ci …
23 bayesian 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.