Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Non capisco perché la variabile casuale "binomiale negativa" abbia quel nome. Cosa c'è di negativo al riguardo? Cos'è il binomio al riguardo? Che cos'è il binomio negativo al riguardo?
Considera il modello standard per la regressione multipla dove , quindi valgono la normalità, l'omosedasticità e la non correlazione degli errori.ε ∼ N ( 0 , σ 2 I n )Y= Xβ+ εY=Xβ+εY=X\beta+\varepsilonε ∼ N( 0 , σ2ion)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Supponiamo di eseguire una regressione della cresta, aggiungendo …
Ho eseguito una convalida incrociata di 10 volte su diversi algoritmi di classificazione binaria, con lo stesso set di dati, e ho ricevuto risultati medi sia su micro che su macro. Va detto che si trattava di un problema di classificazione multi-etichetta. Nel mio caso, i veri negativi e i …
Sto cercando di adattare modelli lineari generalizzati ad alcune serie di dati di conteggio che potrebbero essere o meno sovradispersi. Le due distribuzioni canoniche che si applicano qui sono Poisson e Negative Binomial (Negbin), con EV e varianzaμμ\mu Va rP= μVun'rP=μVar_P = \mu Va rNB= μ + μ2θVun'rNB=μ+μ2θVar_{NB} = \mu …
Perché in "Metodo dei momenti", equipariamo i momenti del campione ai momenti della popolazione per trovare lo stimatore del punto? Dov'è la logica dietro questo?
La maggior parte degli algoritmi classici di riduzione del clustering e della dimensionalità (clustering gerarchico, analisi dei componenti principali, k-media, mappe autoorganizzanti ...) sono progettati specificamente per i dati numerici e i loro dati di input sono visti come punti in uno spazio euclideo. Questo è ovviamente un problema, dato …
Quando tracciamo un istogramma dei miei dati, ha due picchi: Significa una potenziale distribuzione multimodale? Ho eseguito in dip.testin R ( library(diptest)) e l'output è: D = 0.0275, p-value = 0.7913 Posso concludere che i miei dati hanno una distribuzione multimodale? DATI 10346 13698 13894 19854 28066 26620 27066 16658 …
Osservo un comportamento molto strano nel risultato SVD di dati casuali, che posso riprodurre sia in Matlab che in R. Sembra un problema numerico nella libreria LAPACK; è? Traccio n=1000n=1000n=1000 campioni dal k=2k=2k=2 gaussiano dimensionale con zero covarianza di identità e media: X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I) . Li …
Ho 383 campioni che hanno un forte pregiudizio per alcuni valori comuni, come calcolerei l'IC 95% per la media? L'IC che ho calcolato sembra molto lontano, il che presumo sia perché i miei dati non sembrano una curva quando faccio un istogramma. Quindi penso di dover usare qualcosa come il …
Secondo un testo che sto usando, la formula per la varianza del residuo è data da:ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) Trovo che questo sia difficile da credere dal momento che la residuo è la differenza tra il valore osservato e il valore stimato; se si calcolasse la varianza della …
Quando si calcola AIC, AIC=2k−2lnLAIC=2k−2lnLAIC = 2k - 2 ln L k significa "numero di parametri". Ma cosa conta come parametro? Quindi ad esempio nel modello y=ax+by=ax+by = ax + b A e b sono sempre conteggiati come parametri? Cosa succede se non mi interessa il valore dell'intercetta, posso ignorarlo …
Sto cercando di adattare un modello di regressione lineare multipla ai miei dati con un paio di parametri di input, diciamo 3. F( x )F( x )= A x1+ B x2+ CX3+ do= ( A B C )T( x1 X2 X3) + d(io)(Ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 …
Sono un matematico che studia da solo le statistiche e in particolare con la lingua. Nel libro che sto usando, c'è il seguente problema: Una variabile casuale XXX è data come Pareto ( α , 60 )Pareto(α,60)\text{Pareto}(\alpha,60) -distribuito con α > 0α>0\alpha>0 . (Naturalmente, potresti prendere qualsiasi distribuzione a seconda …
Sto leggendo Bishop sull'algoritmo EM per GMM e la relazione tra GMM e k-mean. In questo libro si dice che k-mean è una versione difficile di GMM. Mi chiedo questo implica che se i dati che sto cercando di raggruppare non sono gaussiani, non posso usare k-mean (o almeno non …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.