Statistiche e Big Data

2

Stima del R-quadrato e significatività statistica dal modello di regressione penalizzato

Sto usando il pacchetto R penalizzato per ottenere stime ridotte dei coefficienti per un set di dati in cui ho molti predittori e poca conoscenza di quali sono importanti. Dopo aver scelto i parametri di ottimizzazione L1 e L2 e sono soddisfatto dei miei coefficienti, esiste un modo statisticamente corretto …

20 regression lasso stepwise-regression ridge-regression

2

Qual è l'ipotesi NULL per l'interazione in un ANOVA a due vie?

Diciamo che abbiamo due fattori (A e B), ciascuno con due livelli (A1, A2 e B1, B2) e una variabile di risposta (y). Quando si esegue un ANOVA a due vie del tipo: y~A+B+A*B Stiamo testando tre ipotesi nulle: Non vi è alcuna differenza nei mezzi del fattore A Non …

20 hypothesis-testing anova

2

Regolazione per le covariate nell'analisi della curva ROC

Questa domanda riguarda la stima dei punteggi di cut-off su un questionario di screening multidimensionale per prevedere un endpoint binario, in presenza di scale correlate. Mi è stato chiesto l'interesse del controllo per i punteggi secondari associati quando ho ideato i punteggi di cut-off su ogni dimensione di una scala …

20 epidemiology roc

6

Buona risorsa per capire ANOVA e ANCOVA?

Sto conducendo esperimenti per un documento e sto cercando un libro / sito web interessante per capire correttamente come funzionano ANOVA e ANCOVA. Ho una buona preparazione matematica quindi non ho necessariamente bisogno di una spiegazione volgare. Vorrei anche sapere come determinare quando utilizzare ANOVA anziché ANCOVA.

20 anova references ancova

14

Software per l'esplorazione dei dati semplice ma robusta

Nei miei tentativi di combattere il caos dei fogli di calcolo, sono spesso evangelico nel cercare strumenti più solidi come il vero software di statistica (R, Stata e simili). Di recente, sono stato sfidato da questo punto di vista da qualcuno che ha dichiarato chiaramente che semplicemente non impareranno a …

20 data-visualization software

4

Algoritmi di Metropolis-Hastings utilizzati nella pratica

Oggi stavo leggendo il blog di Christian Robert e mi è piaciuto molto il nuovo algoritmo Metropolis-Hastings di cui stava discutendo. Sembrava semplice e facile da implementare. Ogni volta che codifico MCMC, tendo a rimanere con algoritmi MH molto basilari, come mosse indipendenti o passeggiate casuali sulla scala del registro. …

20 mcmc metropolis-hastings

3

Applicare il "trucco del kernel" ai metodi lineari?

Il trucco del kernel viene utilizzato in diversi modelli di machine learning (ad es. SVM ). È stato introdotto per la prima volta nel documento "Fondamenti teorici del potenziale metodo di funzione nell'apprendimento del riconoscimento di schemi" nel 1964. La definizione di Wikipedia dice che lo è un metodo per …

20 machine-learning kernel-trick

3

Come combinare gli intervalli di confidenza per un componente di varianza di un modello a effetti misti quando si usa l'imputazione multipla

La logica dell'imputazione multipla (MI) è quella di imputare i valori mancanti non una volta ma diverse (in genere M = 5) volte, risultando in M set di dati completati. I set di dati completati M vengono quindi analizzati con metodi di dati completi su cui le stime M e …

20 modeling confidence-interval mixed-model data-imputation

4

Quali sono i valori corretti per precisione e richiamo nei casi limite?

La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

6

Il mio meteorologo è preciso?

Una domanda che mi ha disturbato per qualche tempo, che non so come affrontare: Ogni giorno, il mio meteorologo offre una probabilità percentuale di pioggia (supponiamo che sia calcolato su 9000 cifre e non ha mai ripetuto un numero). Ogni giorno successivo piove o non piove. Ho anni di dati …

20 hypothesis-testing forecasting

5

Quando è possibile utilizzare criteri basati sui dati per specificare un modello di regressione?

Ho sentito che quando molte specifiche del modello di regressione (diciamo, in OLS) sono considerate come possibilità per un set di dati, ciò causa molteplici problemi di confronto e i valori di p e gli intervalli di confidenza non sono più affidabili. Un esempio estremo di ciò è la regressione …

20 regression frequentist multiple-comparisons

2

In che modo la foresta casuale genera la foresta casuale

Non sono un esperto di foreste casuali ma capisco chiaramente che il problema chiave con la foresta casuale è la generazione di alberi (casuali). Puoi spiegarmi come vengono generati gli alberi? (ovvero qual è la distribuzione utilizzata per la generazione di alberi?) Grazie in anticipo !

20 machine-learning r algorithms cart random-forest

4

Qual è un limite inferiore stretto sul tempo di raccolta dei coupon?

Nel classico problema del Coupon Collector , è noto che il tempo necessario per completare una serie di coupon scelti a caso soddisfa , e .TTTnnnE[T]∼nlnnE[T]∼nln⁡nE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2Pr(T>nlnn+cn)<e−cPr(T>nln⁡n+cn)<e−c\Pr(T > n \ln n + cn) < e^{-c} Questo limite superiore è migliore di quello dato dalla …

20 probability probability-inequalities coupon-collector-problem

5

Post-hocs per test all'interno di soggetti?

Qual è il metodo preferito per condurre post-hocs nell'ambito dei test dei soggetti? Ho visto lavori pubblicati in cui viene impiegato HSD di Tukey, ma una recensione di Keppel e Maxwell & Delaney suggerisce che la probabile violazione della sfericità in questi progetti rende il termine di errore errato e …

20 r repeated-measures multiple-comparisons post-hoc sphericity

4

Un modello è adattato ai dati o i dati sono adattati a un modello?

Esiste una differenza concettuale o procedurale tra l'adattamento di un modello ai dati e l'adattamento dei dati al modello? Un esempio della prima formulazione può essere visto in https://courses.washington.edu/matlab1/ModelFitting.html e della seconda in https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

20 terminology