Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Supponiamo che io sia un consulente e che voglia spiegare al mio cliente l'utilità dell'intervallo di confidenza. Il cliente mi dice che i miei intervalli sono troppo ampi per essere utili e preferirebbe usarne uno largo la metà. Come dovrei rispondere?
In che modo i modelli di effetti misti (lineari) vengono normalmente confrontati tra loro? So che è possibile utilizzare i test del rapporto di verosimiglianza, ma ciò non funziona se un modello non è un "sottoinsieme" dell'altro corretto? La stima dei modelli df è sempre semplice? Numero di effetti fissi …
Prima di tutto, non sono uno statistico. Tuttavia, ho fatto analisi statistiche di rete per il mio dottorato. Come parte dell'analisi della rete, ho tracciato una funzione di distribuzione cumulativa complementare (CCDF) di gradi di rete. Quello che ho scoperto è che, diversamente dalle distribuzioni di rete convenzionali (ad es. …
Stavo cercando di adattare i dati di una serie storica (senza repliche) utilizzando il modello di regressione. I dati si presentano come segue: > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 …
A quanto ho capito, ho bisogno di conoscere almeno tre aspetti (su quattro) del mio studio proposto al fine di condurre analisi di potenza, vale a dire: tipo di test - intendo utilizzare Pearson's r e ANCOVA / Regression - GLM livello di significatività (alfa) - Intendo usare 0.05 dimensione …
Ho pensato che la coda pesante = coda grassa, ma alcuni articoli che ho letto mi hanno dato la sensazione che non lo siano. Uno di loro dice: coda pesante significa che la distribuzione ha un infinito momento per un intero j. Inoltre, tutti i dfs nel dominio di attrazione …
Il coefficiente di Pearson tra due variabili è piuttosto elevato (r = .65). Ma quando classifico i valori delle variabili ed eseguo una correlazione di Spearman, il valore del cliente è molto più basso (r = .30). Qual è l'interpretazione di questo?
Quando provo a scegliere tra vari modelli o il numero di funzioni da includere, diciamo che posso pensare a due approcci. Dividi i dati in training e set di test. Meglio ancora, usa bootstrap o k-fold cross-validation. Allenarsi sul set di allenamento ogni volta e calcolare l'errore sul set di …
Ho una domanda relativa alle variabili casuali. Supponiamo di avere due variabili casuali e . Diciamo che è Poisson distribuito con il parametro e è Poisson distribuito con il parametroXXXYYYXXXλ1λ1\lambda_1YYYλ2λ2\lambda_2 . Quando costruisci la frattura da X/YX/YX/Y e la chiami variabile casuale ZZZ, come viene distribuita e qual è la …
Ho diverse domande strettamente correlate riguardanti gli studenti deboli nell'apprendimento in gruppo (ad es. Il potenziamento). Questo può sembrare stupido, ma quali sono i vantaggi dell'utilizzo di studenti deboli piuttosto che forti? (es. perché non potenziare con metodi di apprendimento "forti"?) Esiste una sorta di forza "ottimale" per gli studenti …
Contesto: Nel frattempo ho acquisito una serie di euristiche su come tracciare in modo efficace l'associazione tra due variabili numeriche. Immagino che la maggior parte delle persone che lavorano con i dati avrebbe un insieme simile di regole. Esempi di tali regole potrebbero essere: Se una delle variabili è inclinata …
È possibile utilizzare il set di dati del decathlon {FactoMineR} per riprodurre questo. La domanda è perché gli autovalori calcolati differiscono da quelli della matrice di covarianza. Ecco gli autovalori usando princomp: > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 …
Qualcuno ha tentato la previsione delle serie temporali utilizzando la regressione del vettore di supporto? Comprendo le macchine vettoriali di supporto e in parte capisco la regressione dei vettori di supporto, ma non capisco come possano essere utilizzate per modellare serie storiche, in particolare serie temporali multivariate. Ho provato a …
Supponiamo di avere il seguente modello yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i dove , è un vettore di variabili esplicative, sono i parametri della funzione non lineare e , dove è naturalmente matrice.yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K L'obiettivo è il solito per stimare e \ Sigma . La scelta ovvia è il metodo della massima verosimiglianza. …
Contesto: Nel tentativo di strutturare i pezzi centrali che mi sono imbattuto nella teoria della probabilità e nella statica, ho creato un documento di riferimento incentrato sugli elementi matematici essenziali (disponibile qui ). Condividendo questo documento, spero di fornire agli studenti di statistica un riassunto completo del materiale di base …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.