Statistiche e Big Data

1

Valore atteso e varianza del registro (a)

Ho una variabile casuale X( a ) = log( Un )X(a)=log⁡(a)X(a) = \log(a) dove a è distribuito normalmente ( μ , σ 2 )N( μ , σ2)N(μ,σ2)\mathcal N(\mu,\sigma^2) . Cosa posso dire di E( X)E(X)E(X) e Va r ( X)Var(X)Var(X) ? Anche un'approssimazione sarebbe utile.

20 normal-distribution mathematical-statistics random-variable lognormal logarithm

2

Coefficienti di somiglianza per i dati binari: perché scegliere Jaccard su Russell e Rao?

Da Encyclopedia of Statistical Sciences ho capito che dati gli attributi (dicotomici (binari: 1 = presenti; 0 = assenti) (variabili), possiamo formare una tabella di contingenza per due oggetti i e j di un campione:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c …

20 binary-data similarities association-measure

1

Intuizione dello stimatore sandwich

Wikipedia e la vignetta del pacchetto sandwich R forniscono buone informazioni sulle ipotesi a supporto degli errori standard del coefficiente OLS e sullo sfondo matematico degli stimatori sandwich. Non sono ancora chiaro in che modo sia affrontato il problema dell'eteroscedasticità dei residui, probabilmente perché in primo luogo non capisco completamente …

20 multiple-regression residuals heteroscedasticity robust-standard-error

3

Un valore p di 0,04993 è sufficiente per respingere l'ipotesi nulla?

In un test di significatività statistica dei ranghi firmati Wilcoxon, ci siamo imbattuti in alcuni dati che producono un valore di . Con una soglia di , questo risultato è sufficiente per respingere l'ipotesi nulla, o è più sicuro dire che il test era inconcludente, poiché se arrotondiamo il valore …

20 hypothesis-testing statistical-significance p-value

5

Algoritmo di motivazione dell'aspettativa di massimizzazione

Nell'approccio dell'algoritmo EM usiamo la disuguaglianza di Jensen per arrivare a logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz e definire daθ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz Tutto ciò che leggo EM lo fa semplicemente cadere, ma mi sono sempre sentito a disagio non avendo …

20 mixture expectation-maximization

3

Test di separabilità lineare

Esiste un modo per testare la separabilità lineare di un set di dati a due classi in dimensioni elevate? I miei vettori di funzionalità sono lunghi 40. So di poter sempre eseguire esperimenti di regressione logistica e determinare il tasso di citrato vs falso allarme per concludere se le due …

20 machine-learning classification

3

Collegamento tra metrica di Fisher ed entropia relativa

Qualcuno può provare la seguente connessione tra la metrica di informazioni di Fisher e la relativa entropia (o divergenza di KL) in modo rigorosamente matematico rigoroso? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) dove a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) …

20 mathematical-statistics kullback-leibler fisher-information

2

Possiamo vedere la forma della curva normale da qualche parte nella natura?

Non voglio sapere se alcuni fenomeni in natura hanno una distribuzione normale, ma se possiamo vedere da qualche parte la forma di una curva normale come possiamo vederla ad esempio nel riquadro di Galton. Vedi questa figura da Wikipedia. Nota che molte forme matematiche o curve sono viste direttamente in …

20 distributions normality-assumption

2

Algoritmo EM implementato manualmente

Voglio implementare l'algoritmo EM manualmente e poi confrontarlo con i risultati normalmixEMdel mixtoolspacchetto. Certo, sarei felice se entrambi conducessero agli stessi risultati. Il riferimento principale è Geoffrey McLachlan (2000), Modelli di miscele finite . Ho una densità mista di due gaussiani, in forma generale, la probabilità di log è data …

20 r expectation-maximization gaussian-mixture

4

Come funziona una distribuzione Poisson durante la modellazione di dati continui e comporta la perdita di informazioni?

Un collega sta analizzando alcuni dati biologici per la sua tesi con una cattiva eteroscedasticità (figura sotto). Lo sta analizzando con un modello misto ma sta ancora riscontrando problemi con i residui. Trasformare il registro delle variabili di risposta pulisce le cose e in base al feedback a questa domanda …

20 mixed-model poisson-distribution biostatistics

1

libsvm "raggiungendo il numero massimo di iterazioni" avvertimento e convalida incrociata

Sto usando libsvm in modalità C-SVC con un kernel polinomiale di grado 2 e mi viene richiesto di addestrare più SVM. Ogni set di allenamento ha 10 funzioni e 5000 vettori. Durante l'allenamento, ricevo questo avviso per la maggior parte degli SVM che alleno: WARNING: reaching max number of iterations …

20 machine-learning cross-validation svm regularization libsvm

1

Le variabili casuali sono correlate se e solo se i loro ranghi sono correlati?

Supponiamo che X, YX,YX,Y siano variabili casuali continue con secondi momenti finiti. La versione della popolazione del coefficiente di correlazione rango di Spearman può essere definita come il coefficiente momento-prodotto ρ di Pearson degli integrali di probabilità trasforma e , dove F_X, F_Y sono i cdf di X e Y …

20 correlation pearson-r spearman-rho

1

Perché la potatura non è necessaria per alberi forestali casuali?

Breiman afferma che gli alberi sono coltivati senza potatura. Perché? Voglio dire che ci deve essere una solida ragione per cui gli alberi nella foresta casuale non vengono potati. D'altra parte è considerato molto importante potare un singolo albero decisionale per evitare un eccesso di adattamento. C'è della letteratura disponibile …

20 machine-learning

4

Trasformazione per aumentare la curtosi e l'asimmetria del camper normale

Sto lavorando a un algoritmo che si basa sul fatto che le osservazioni sono normalmente distribuite e vorrei testare empiricamente la solidità dell'algoritmo a questa ipotesi.YYY Per fare questo, ero alla ricerca di una sequenza di trasformazioni che avrebbe progressivamente interrompere la normalità di . Ad esempio se gli sono …

20 data-transformation normality-assumption skewness kurtosis

3

Quali test devo utilizzare per confermare che i residui sono normalmente distribuiti?

Ho alcuni dati che sembrano tracciare un grafico dei residui rispetto al tempo quasi normale, ma voglio esserne sicuro. Come posso verificare la normalità dei residui di errore?

20 hypothesis-testing normal-distribution assumptions