Statistiche e Big Data

3

Comprensione del paradosso di Simpson: l'esempio di Andrew Gelman con regressione delle entrate per sesso e altezza

Andrew Gelman in uno dei suoi recenti post sul blog dice: Non credo siano necessari controfattuali o potenziali esiti per il paradosso di Simpson. Dico questo perché si può impostare il paradosso di Simpson con variabili che non possono essere manipolate o per le quali le manipolazioni non sono direttamente …

22 regression interaction simpsons-paradox

2

Scelta dell'alfa ottimale nella regressione logistica della rete elastica

Sto eseguendo una regressione logistica a rete elastica su un set di dati sanitari utilizzando il glmnetpacchetto in R selezionando i valori lambda su una griglia di αα\alpha da 0 a 1. Il mio codice abbreviato è di seguito: alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", …

22 machine-learning cross-validation glmnet elastic-net

2

Test di Wald in regressione (OLS e GLM): distribuzione t- vs. z

Comprendo che il test Wald per i coefficienti di regressione si basa sulla seguente proprietà che detiene asintoticamente (ad esempio Wasserman (2006): All of Statistics , pagine 153, 214-215): Dove indica il coefficiente di regressione stimato, indica l'errore standard del coefficiente di regressione e è il valore di interesse ( …

22 r regression hypothesis-testing generalized-linear-model

3

Perché Lars e Glmnet offrono soluzioni diverse per il problema del lazo?

Voglio capire meglio i pacchetti R Larse Glmnet, che sono usati per risolvere il problema Lazo: (per Variabili e campioni, vedi www.stanford.edu/~hastie/Papers/glmnet.pdf a pagina 3)pNm i n( β0β) ∈ Rp + 1[ 12 NΣi = 1N( yio- β0- xTioβ)2+ λ | | β| |l1]mion(β0β)∈Rp+1[12NΣio=1N(yio-β0-XioTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta …

22 r regression machine-learning lasso regularization

8

Esegui il clustering di K-medie (o dei suoi parenti stretti) con solo una matrice di distanza, non dati punto per caratteristica

Voglio eseguire il clustering dei mezzi K sugli oggetti che ho, ma gli oggetti non sono descritti come punti nello spazio, cioè per objects x featuresset di dati. Tuttavia, sono in grado di calcolare la distanza tra due oggetti qualsiasi (si basa su una funzione di somiglianza). Quindi, dispongo della …

22 machine-learning clustering data-mining k-means distance

4

Come progetteresti un sistema di apprendimento automatico per giocare a Angry Birds?

Dopo aver giocato troppo ad Angry Birds, ho iniziato ad osservare le mie strategie. Si scopre che ho sviluppato un approccio molto specifico per ottenere 3 stelle su ogni livello. Ciò mi ha fatto riflettere sulle sfide dello sviluppo di un sistema di apprendimento automatico in grado di riprodurre Angry …

22 machine-learning reinforcement-learning

1

Correlazione intraclasse (ICC) per un'interazione?

Supponiamo che io abbia delle misurazioni per ogni soggetto in ciascun sito. Due variabili, soggetto e sito, sono interessanti in termini di calcolo dei valori di correlazione intraclasse (ICC). Tipicamente userei la funzione lmerdal pacchetto R lme4, ed eseguivo lmer(measurement ~ 1 + (1 | subject) + (1 | site), …

22 r lme4-nlme intraclass-correlation

3

AIC o valore p: quale scegliere per la selezione del modello?

Sono nuovo di zecca per questa cosa R ma non sono sicuro di quale modello selezionare. Ho fatto una regressione graduale selezionando ciascuna variabile in base all'AIC più basso. Ho pensato a 3 modelli di cui non sono sicuro quale sia il "migliore". Model 1: Var1 (p=0.03) AIC=14.978 Model 2: …

22 model-selection aic stepwise-regression

2

È possibile accumulare una serie di statistiche che descrivono un gran numero di campioni in modo da poter produrre un diagramma a scatole?

Devo chiarire immediatamente che sono uno sviluppatore di software praticante, non uno statistico, e che la mia classe di statistiche del college era molto tempo fa ... Detto questo, vorrei sapere se esiste un metodo per accumulare una serie di statistiche descrittive che potrebbero quindi essere utilizzate per produrre un …

22 algorithms median quantiles

5

Valutare il significato delle differenze nelle distribuzioni

Ho due gruppi di dati. Ciascuno con una diversa distribuzione di più variabili. Sto cercando di determinare se le distribuzioni di questi due gruppi sono diverse in modo statisticamente significativo. Ho i dati sia in forma grezza che raggruppati in modo più facile da gestire con categorie discrete con conteggi …

22 distributions statistical-significance

4

Quando sono applicabili i risultati di Shao sulla validazione incrociata con esclusione per singolo?

Nel suo articolo Linear Model Selection by Cross-Validation , Jun Shao mostra che per il problema della selezione variabile nella regressione lineare multivariata, il metodo di validazione incrociata unilaterale (LOOCV) è "asintoticamente incoerente". In parole povere, tende a selezionare modelli con troppe variabili. In uno studio di simulazione, Shao mostra …

22 classification model-selection cross-validation

4

Entropia di un'immagine

Qual è il modo più corretto informazioni / fisica-teorica per calcolare l'entropia di un'immagine? In questo momento non mi interessa l'efficienza computazionale, teoricamente la voglio il più corretta possibile. Iniziamo con un'immagine in scala di grigi. Un approccio intuitivo è considerare l'immagine come una borsa di pixel e calcolare dove …

22 spatial entropy image-processing

1

C'è qualche differenza tra e ?

Il coefficiente di correlazione è solitamente scritto con una maiuscola ma a volte no. Mi chiedo se c'è davvero una differenza tra e ? può significare qualcos'altro oltre a un coefficiente di correlazione?r 2 R 2 rRRRr2r2r^2R2R2R^2rrr

22 correlation terminology r-squared

3

Perché dobbiamo codificare le variabili categoriali

Non sono sicuro del motivo per cui dobbiamo codificare le variabili categoriali. Ad esempio, se ho una variabile categoriale con quattro possibili valori 0,1,2,3 posso sostituirla con due dimensioni. Se la variabile avesse valore 0, avrebbe 0,0 nelle due dimensioni, se avesse 3, avrebbe 1,1 nelle due dimensioni e così …

22 categorical-data categorical-encoding

5

Ipotesi di modelli lineari e cosa fare se i residui non sono normalmente distribuiti

Sono un po 'confuso su quali siano i presupposti della regressione lineare. Finora ho verificato se: tutte le variabili esplicative erano correlate in modo lineare con la variabile di risposta. (Questo era il caso) c'era qualche collinearità tra le variabili esplicative. (c'era poca collinearità). le distanze di Cook dei punti …

22 linear-model residuals assumptions normality-assumption