Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Ho una variabile casuale X( a ) = log( Un )X(a)=log(a)X(a) = \log(a) dove a è distribuito normalmente ( μ , σ 2 )N( μ , σ2)N(μ,σ2)\mathcal N(\mu,\sigma^2) . Cosa posso dire di E( X)E(X)E(X) e Va r ( X)Var(X)Var(X) ? Anche un'approssimazione sarebbe utile.
Da Encyclopedia of Statistical Sciences ho capito che dati gli attributi (dicotomici (binari: 1 = presenti; 0 = assenti) (variabili), possiamo formare una tabella di contingenza per due oggetti i e j di un campione:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c …
Wikipedia e la vignetta del pacchetto sandwich R forniscono buone informazioni sulle ipotesi a supporto degli errori standard del coefficiente OLS e sullo sfondo matematico degli stimatori sandwich. Non sono ancora chiaro in che modo sia affrontato il problema dell'eteroscedasticità dei residui, probabilmente perché in primo luogo non capisco completamente …
In un test di significatività statistica dei ranghi firmati Wilcoxon, ci siamo imbattuti in alcuni dati che producono un valore di . Con una soglia di , questo risultato è sufficiente per respingere l'ipotesi nulla, o è più sicuro dire che il test era inconcludente, poiché se arrotondiamo il valore …
Nell'approccio dell'algoritmo EM usiamo la disuguaglianza di Jensen per arrivare a logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlogp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz e definire daθ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz Tutto ciò che leggo EM lo fa semplicemente cadere, ma mi sono sempre sentito a disagio non avendo …
Esiste un modo per testare la separabilità lineare di un set di dati a due classi in dimensioni elevate? I miei vettori di funzionalità sono lunghi 40. So di poter sempre eseguire esperimenti di regressione logistica e determinare il tasso di citrato vs falso allarme per concludere se le due …
Qualcuno può provare la seguente connessione tra la metrica di informazioni di Fisher e la relativa entropia (o divergenza di KL) in modo rigorosamente matematico rigoroso? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) dove a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(logp(x;a))∂j(logp(x;a)) …
Non voglio sapere se alcuni fenomeni in natura hanno una distribuzione normale, ma se possiamo vedere da qualche parte la forma di una curva normale come possiamo vederla ad esempio nel riquadro di Galton. Vedi questa figura da Wikipedia. Nota che molte forme matematiche o curve sono viste direttamente in …
Voglio implementare l'algoritmo EM manualmente e poi confrontarlo con i risultati normalmixEMdel mixtoolspacchetto. Certo, sarei felice se entrambi conducessero agli stessi risultati. Il riferimento principale è Geoffrey McLachlan (2000), Modelli di miscele finite . Ho una densità mista di due gaussiani, in forma generale, la probabilità di log è data …
Un collega sta analizzando alcuni dati biologici per la sua tesi con una cattiva eteroscedasticità (figura sotto). Lo sta analizzando con un modello misto ma sta ancora riscontrando problemi con i residui. Trasformare il registro delle variabili di risposta pulisce le cose e in base al feedback a questa domanda …
Sto usando libsvm in modalità C-SVC con un kernel polinomiale di grado 2 e mi viene richiesto di addestrare più SVM. Ogni set di allenamento ha 10 funzioni e 5000 vettori. Durante l'allenamento, ricevo questo avviso per la maggior parte degli SVM che alleno: WARNING: reaching max number of iterations …
Supponiamo che X, YX,YX,Y siano variabili casuali continue con secondi momenti finiti. La versione della popolazione del coefficiente di correlazione rango di Spearman può essere definita come il coefficiente momento-prodotto ρ di Pearson degli integrali di probabilità trasforma e , dove F_X, F_Y sono i cdf di X e Y …
Breiman afferma che gli alberi sono coltivati senza potatura. Perché? Voglio dire che ci deve essere una solida ragione per cui gli alberi nella foresta casuale non vengono potati. D'altra parte è considerato molto importante potare un singolo albero decisionale per evitare un eccesso di adattamento. C'è della letteratura disponibile …
Sto lavorando a un algoritmo che si basa sul fatto che le osservazioni sono normalmente distribuite e vorrei testare empiricamente la solidità dell'algoritmo a questa ipotesi.YYY Per fare questo, ero alla ricerca di una sequenza di trasformazioni che avrebbe progressivamente interrompere la normalità di . Ad esempio se gli sono …
Ho alcuni dati che sembrano tracciare un grafico dei residui rispetto al tempo quasi normale, ma voglio esserne sicuro. Come posso verificare la normalità dei residui di errore?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.