Statistiche e Big Data

4

Distribuzioni precedenti debolmente informative per i parametri di scala

Ho usato le distribuzioni log normali come distribuzioni precedenti per i parametri di scala (per distribuzioni normali, t distribuzioni ecc.) Quando ho un'idea approssimativa di come dovrebbe essere la bilancia, ma voglio sbagliare sul lato del dire che non lo so molto al riguardo. Lo uso perché quell'uso ha un …

21 distributions bayesian modeling prior maximum-entropy

7

Come interpretare l'intervallo di confidenza della differenza nelle medie in un T-test di esempio?

SPSS fornisce l'output "intervallo di confidenza dei mezzi di differenza". Ho letto in alcuni punti che significa "95 volte su 100, la nostra differenza media di esempio sarà tra questi limiti" Lo trovo poco chiaro. Qualcuno può suggerire una formulazione più chiara per spiegare "intervallo di confidenza della differenza di …

21 confidence-interval

2

Convalida incrociata (generalizzazione degli errori) dopo la selezione del modello

Nota: il caso è n >> p Sto leggendo Elements of Statistical Learning e ci sono varie menzioni sul modo "giusto" di fare la validazione incrociata (es. Pagina 60, pagina 245). In particolare, la mia domanda è come valutare il modello finale (senza un set di test separato) usando k-fold …

21 machine-learning model-selection data-mining cross-validation

4

Qual è la relazione tra stimatore e stima?

21 estimation terminology estimators

2

Somiglianza del documento di misurazione

Per raggruppare i documenti (di testo) è necessario un modo per misurare la somiglianza tra coppie di documenti. Due alternative sono: Confronta i documenti come vettori di termini usando Cosine Somiglianza - e TF / IDF come coefficienti correttori per i termini. Confronta ogni distribuzione di probabilità dei documenti usando …

21 information-retrieval

2

Come misurare / sostenere la bontà di adattamento di una linea di tendenza a una legge di potere?

Ho alcuni dati a cui sto cercando di adattarmi a una linea di tendenza. Credo che i dati seguano una legge di potenza, e quindi ho tracciato i dati sugli assi log-log alla ricerca di una linea retta. Ciò ha comportato una (quasi) linea retta e quindi in Excel ho …

21 goodness-of-fit power-law

3

Coefficiente di Determinazione (

Voglio cogliere appieno la nozione di descrive la quantità di variazione tra le variabili. Ogni spiegazione web è un po 'meccanica e ottusa. Voglio "ottenere" il concetto, non solo usare meccanicamente i numeri.r2r2r^2 Ad esempio: ore studiate vs. punteggio del test rrr = .8 r2r2r^2 = .64 Che cosa significa …

21 regression correlation variance

5

Come posso migliorare la mia rete neurale nel prevedere le onde sinusoidali?

Qui, dai un'occhiata: puoi vedere esattamente dove finiscono i dati di allenamento. I dati di allenamento vanno da a .- 1−1-1111 Ho usato Keras e una rete densa 1-100-100-2 con attivazione tanh. Calcolo il risultato da due valori, p e q come p / q. In questo modo posso raggiungere …

21 regression neural-networks python keras

1

Generazione di variabili casuali binomiali correlate

Mi chiedevo se fosse possibile generare variabili binomiali casuali correlate seguendo un approccio di trasformazione lineare? Di seguito, ho provato qualcosa di semplice in R e produce una certa correlazione. Ma mi chiedevo se esiste un modo di principio per farlo? X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, …

21 r correlation binomial random-generation bernoulli-distribution

3

Come interpretare l'errore quadratico medio (RMSE) rispetto alla deviazione standard?

Diciamo che ho un modello che mi dà valori proiettati. Calcolo RMSE di quei valori. E poi la deviazione standard dei valori effettivi. Ha senso confrontare questi due valori (varianze)? Quello che penso è che se RMSE e la deviazione standard sono simili / uguali, allora l'errore / varianza del …

21 standard-deviation standard-error rms

3

È necessario un set di test quando si utilizza la convalida incrociata di k-fold?

Ho letto della convalida di k-fold e voglio essere sicuro di capire come funziona. So che per il metodo di controllo, i dati vengono suddivisi in tre set e il set di test viene utilizzato solo alla fine per valutare le prestazioni del modello, mentre il set di convalida viene …

21 cross-validation validation out-of-sample

2

Come riassumere intervalli credibili per un pubblico medico

Con i pacchetti Stan e frontend rstanarmo brmsposso facilmente analizzare i dati nel modo bayesiano come facevo prima con modelli misti come lme. Mentre ho la maggior parte del libro e degli articoli di Kruschke-Gelman-Wagenmakers-ecc. Sulla mia scrivania, questi non mi dicono come sintetizzare i risultati per un pubblico medico, …

21 statistical-significance bayesian stan credible-interval medicine

5

Un approccio statistico per determinare se i dati mancano casualmente

Ho una vasta gamma di vettori di funzionalità che userò per attaccare un problema di classificazione binaria (usando scikit learn in Python). Prima di iniziare a pensare all'imputazione, sono interessato a cercare di determinare dalle parti rimanenti dei dati se i dati mancanti sono "mancanti a caso" o mancanti non …

21 missing-data randomness

3

Distribuzione della differenza tra due distribuzioni normali

Ho due funzioni di densità di probabilità delle distribuzioni normali: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } e f2( x2|μ2, σ2) = 1σ22 π--√e- ( x - μ2)22 σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Sto cercando la …

21 distributions normal-distribution distance

2

Come funziona il metodo di trasformazione inversa?

Come funziona il metodo di inversione? Supponiamo di avere un campione casuale con densità over e quindi con cdf su . Quindi con il metodo di inversione ottengo la distribuzione di X come F_X ^ {- 1} (u) = u ^ \ theta . f ( x ; θ ) …

21 r distributions inference random-generation inverse-cdf