Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Andrew Gelman in uno dei suoi recenti post sul blog dice: Non credo siano necessari controfattuali o potenziali esiti per il paradosso di Simpson. Dico questo perché si può impostare il paradosso di Simpson con variabili che non possono essere manipolate o per le quali le manipolazioni non sono direttamente …
Sto eseguendo una regressione logistica a rete elastica su un set di dati sanitari utilizzando il glmnetpacchetto in R selezionando i valori lambda su una griglia di αα\alpha da 0 a 1. Il mio codice abbreviato è di seguito: alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", …
Comprendo che il test Wald per i coefficienti di regressione si basa sulla seguente proprietà che detiene asintoticamente (ad esempio Wasserman (2006): All of Statistics , pagine 153, 214-215): Dove indica il coefficiente di regressione stimato, indica l'errore standard del coefficiente di regressione e è il valore di interesse ( …
Voglio capire meglio i pacchetti R Larse Glmnet, che sono usati per risolvere il problema Lazo: (per Variabili e campioni, vedi www.stanford.edu/~hastie/Papers/glmnet.pdf a pagina 3)pNm i n( β0β) ∈ Rp + 1[ 12 NΣi = 1N( yio- β0- xTioβ)2+ λ | | β| |l1]mion(β0β)∈Rp+1[12NΣio=1N(yio-β0-XioTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta …
Voglio eseguire il clustering dei mezzi K sugli oggetti che ho, ma gli oggetti non sono descritti come punti nello spazio, cioè per objects x featuresset di dati. Tuttavia, sono in grado di calcolare la distanza tra due oggetti qualsiasi (si basa su una funzione di somiglianza). Quindi, dispongo della …
Dopo aver giocato troppo ad Angry Birds, ho iniziato ad osservare le mie strategie. Si scopre che ho sviluppato un approccio molto specifico per ottenere 3 stelle su ogni livello. Ciò mi ha fatto riflettere sulle sfide dello sviluppo di un sistema di apprendimento automatico in grado di riprodurre Angry …
Supponiamo che io abbia delle misurazioni per ogni soggetto in ciascun sito. Due variabili, soggetto e sito, sono interessanti in termini di calcolo dei valori di correlazione intraclasse (ICC). Tipicamente userei la funzione lmerdal pacchetto R lme4, ed eseguivo lmer(measurement ~ 1 + (1 | subject) + (1 | site), …
Sono nuovo di zecca per questa cosa R ma non sono sicuro di quale modello selezionare. Ho fatto una regressione graduale selezionando ciascuna variabile in base all'AIC più basso. Ho pensato a 3 modelli di cui non sono sicuro quale sia il "migliore". Model 1: Var1 (p=0.03) AIC=14.978 Model 2: …
Devo chiarire immediatamente che sono uno sviluppatore di software praticante, non uno statistico, e che la mia classe di statistiche del college era molto tempo fa ... Detto questo, vorrei sapere se esiste un metodo per accumulare una serie di statistiche descrittive che potrebbero quindi essere utilizzate per produrre un …
Ho due gruppi di dati. Ciascuno con una diversa distribuzione di più variabili. Sto cercando di determinare se le distribuzioni di questi due gruppi sono diverse in modo statisticamente significativo. Ho i dati sia in forma grezza che raggruppati in modo più facile da gestire con categorie discrete con conteggi …
Nel suo articolo Linear Model Selection by Cross-Validation , Jun Shao mostra che per il problema della selezione variabile nella regressione lineare multivariata, il metodo di validazione incrociata unilaterale (LOOCV) è "asintoticamente incoerente". In parole povere, tende a selezionare modelli con troppe variabili. In uno studio di simulazione, Shao mostra …
Qual è il modo più corretto informazioni / fisica-teorica per calcolare l'entropia di un'immagine? In questo momento non mi interessa l'efficienza computazionale, teoricamente la voglio il più corretta possibile. Iniziamo con un'immagine in scala di grigi. Un approccio intuitivo è considerare l'immagine come una borsa di pixel e calcolare dove …
Il coefficiente di correlazione è solitamente scritto con una maiuscola ma a volte no. Mi chiedo se c'è davvero una differenza tra e ? può significare qualcos'altro oltre a un coefficiente di correlazione?r 2 R 2 rRRRr2r2r^2R2R2R^2rrr
Non sono sicuro del motivo per cui dobbiamo codificare le variabili categoriali. Ad esempio, se ho una variabile categoriale con quattro possibili valori 0,1,2,3 posso sostituirla con due dimensioni. Se la variabile avesse valore 0, avrebbe 0,0 nelle due dimensioni, se avesse 3, avrebbe 1,1 nelle due dimensioni e così …
Sono un po 'confuso su quali siano i presupposti della regressione lineare. Finora ho verificato se: tutte le variabili esplicative erano correlate in modo lineare con la variabile di risposta. (Questo era il caso) c'era qualche collinearità tra le variabili esplicative. (c'era poca collinearità). le distanze di Cook dei punti …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.