Statistiche e Big Data

2

Intervallo di confidenza attorno alla stima binomiale di 0 o 1

Qual è la tecnica migliore per calcolare un intervallo di confidenza di un esperimento binomiale, se la tua stima è che (o similmente ) e la dimensione del campione è relativamente piccola, ad esempio ?p=0p=0p=0p=1p=1p=1n=25n=25n=25

36 confidence-interval binomial

3

Come derivare la matrice varianza-covarianza dei coefficienti nella regressione lineare

Sto leggendo un libro sulla regressione lineare e ho qualche problema a capire la matrice varianza-covarianza di :bb\mathbf{b} Gli elementi diagonali sono abbastanza facili, ma quelli fuori diagonale sono un po 'più difficili, ciò che mi è che σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - …

36 regression

4

Buoni metodi per i grafici di densità delle variabili non negative in R?

plot(density(rexp(100)) Ovviamente tutta la densità a sinistra di zero rappresenta una distorsione. Sto cercando di riassumere alcuni dati per i non statistici e voglio evitare domande sul perché i dati non negativi hanno densità a sinistra di zero. I grafici sono per il controllo di randomizzazione; Voglio mostrare le distribuzioni …

36 r pdf gamma-distribution kernel-smoothing

2

Regressione logistica multinomiale vs regressione logistica binaria one-vs-rest

Diciamo che abbiamo una variabile dipendente con poche categorie e un insieme di variabili indipendenti. YYY Quali sono i vantaggi della regressione logistica multinomiale rispetto a un insieme di regressioni logistiche binarie (ovvero schema one-vs-rest )? Per set di regressione logistica binaria intendo che per ogni categoria costruiamo un modello …

36 logistic categorical-data multinomial

6

Perché "spiegare" ha un senso intuitivo?

Di recente ho appreso un principio del ragionamento probabilistico chiamato " spiegare via " e sto cercando di coglierne un'intuizione. Vorrei creare uno scenario. Sia l'evento che si sta verificando un terremoto. Lascia che l'evento sia l'evento in cui il gigante jolly green sta passeggiando per la città. Lascia che …

36 probability intuition

3

Interpretazione del valore p nel test di ipotesi

Di recente mi sono imbattuto nel saggio "The Insignificance of Null Hypothesis Significance Testing", Jeff Gill (1999) . L'autore ha sollevato alcune idee sbagliate comuni riguardo al test di ipotesi e ai valori p, sui quali ho due domande specifiche: Il valore p è tecnicamente , che, come sottolineato dal …

36 hypothesis-testing p-value

3

Come stimare il parametro di contrazione in Lazo o regressione della cresta con variabili> 50K?

Voglio usare la regressione Lasso o ridge per un modello con oltre 50.000 variabili. Voglio farlo utilizzando il pacchetto software in R. Come posso stimare il parametro di restringimento ( )?λλ\lambda modifiche: Ecco il punto in cui mi sono alzato: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= …

36 r lasso ridge-regression high-dimensional

4

Dove si trova

Una versione molto semplice del teorema centrale limitato come di seguito n−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) che è Lindeberg – Lévy CLT. Non capisco perché c'è unn−−√n\sqrt{n} sul lato sinistro. E Lyapunov CLT dice 1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) …

36 central-limit-theorem intuition

3

Cose da considerare sui programmi di master in statistica

È la stagione delle ammissioni per le scuole di specializzazione. Io (e molti studenti come me) ora sto cercando di decidere quale programma statistico scegliere. Quali sono alcuni aspetti che quelli di voi che lavorano con le statistiche suggeriscono di considerare sui programmi di master in statistica? Ci sono insidie …

36 machine-learning mathematical-statistics careers

4

Come posso adattare una regressione vincolata in R in modo che i coefficienti totali = 1?

Vedo una regressione limitata simile qui: Regressione lineare vincolata attraverso un punto specificato ma il mio requisito è leggermente diverso. Ho bisogno dei coefficienti per sommare a 1. In particolare, sto regredendo i rendimenti di 1 serie di cambi contro 3 altre serie di cambi, in modo che gli investitori …

36 r regression

2

Qual è la distribuzione della somma dei variati gaussiani non iid?

Se è distribuito , è distribuito e , so che è distribuito se X e Y sono indipendenti.N ( μ X , σ 2 X ) Y N ( μ Y , σ 2 Y ) Z = X + Y Z N ( μ X + μ Y , …

36 normal-distribution mathematical-statistics

4

Piattaforme di cloud computing per l'apprendimento automatico [chiuso]

Ho un piccolo elenco di aziende che forniscono una piattaforma per l'esecuzione di script R, python o ottave su cluster costruiti su Amazon EC2. Ci sono altri nomi che dovrei aggiungere? Cloudnumbers Opani crdata

36 r machine-learning

5

Sollevare la misura nel data mining

Ho cercato su molti siti Web per sapere cosa farà esattamente Lift? I risultati che ho trovato riguardavano il suo utilizzo in applicazioni non stesse. Conosco la funzione di supporto e fiducia. Da Wikipedia, nel data mining, l'ascensore è una misura delle prestazioni di un modello nel prevedere o classificare …

36 data-mining

3

Creare un "punteggio di certezza" dai voti nelle foreste casuali?

Sto cercando di formare un classificatore che discriminerà tra Type Ae Type Boggetti con un set di addestramento ragionevolmente ampio di circa 10.000 oggetti, di cui circa la metà Type Ae metà Type B. Il set di dati è composto da 100 funzioni continue che descrivono in dettaglio le proprietà …

36 r machine-learning random-forest

5

Funzioni di temporizzazione in R [chiuso]

Vorrei misurare il tempo necessario per ripetere l'esecuzione di una funzione. L' replicate()uso di for-loop è equivalente? Per esempio: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); Qual è il metodo preferito. Nell'output di system.time(), è sys+useril tempo effettivo della CPU per l'esecuzione del programma? È elapseduna buona misura della performance temporale del …

36 r