Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati





5
Algoritmo di motivazione dell'aspettativa di massimizzazione
Nell'approccio dell'algoritmo EM usiamo la disuguaglianza di Jensen per arrivare a logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz e definire daθ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz Tutto ciò che leggo EM lo fa semplicemente cadere, ma mi sono sempre sentito a disagio non avendo …

3
Test di separabilità lineare
Esiste un modo per testare la separabilità lineare di un set di dati a due classi in dimensioni elevate? I miei vettori di funzionalità sono lunghi 40. So di poter sempre eseguire esperimenti di regressione logistica e determinare il tasso di citrato vs falso allarme per concludere se le due …

3
Collegamento tra metrica di Fisher ed entropia relativa
Qualcuno può provare la seguente connessione tra la metrica di informazioni di Fisher e la relativa entropia (o divergenza di KL) in modo rigorosamente matematico rigoroso? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) dove a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) …


2
Algoritmo EM implementato manualmente
Voglio implementare l'algoritmo EM manualmente e poi confrontarlo con i risultati normalmixEMdel mixtoolspacchetto. Certo, sarei felice se entrambi conducessero agli stessi risultati. Il riferimento principale è Geoffrey McLachlan (2000), Modelli di miscele finite . Ho una densità mista di due gaussiani, in forma generale, la probabilità di log è data …




1
Perché la potatura non è necessaria per alberi forestali casuali?
Breiman afferma che gli alberi sono coltivati ​​senza potatura. Perché? Voglio dire che ci deve essere una solida ragione per cui gli alberi nella foresta casuale non vengono potati. D'altra parte è considerato molto importante potare un singolo albero decisionale per evitare un eccesso di adattamento. C'è della letteratura disponibile …



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.