Statistiche e Big Data model-selection

4

Quando sono applicabili i risultati di Shao sulla validazione incrociata con esclusione per singolo?

Nel suo articolo Linear Model Selection by Cross-Validation , Jun Shao mostra che per il problema della selezione variabile nella regressione lineare multivariata, il metodo di validazione incrociata unilaterale (LOOCV) è "asintoticamente incoerente". In parole povere, tende a selezionare modelli con troppe variabili. In uno studio di simulazione, Shao mostra …

22 classification model-selection cross-validation

3

Analizza grafici ACF e PACF

Voglio vedere se sono sulla strada giusta per analizzare i miei grafici ACF e PACF: Background: (Reff: Philip Hans Franses, 1998) Poiché sia ACF che PACF mostrano valori significativi, presumo che un modello ARMA soddisfi le mie esigenze L'ACF può essere utilizzato per stimare la parte MA, ovvero il valore …

21 time-series model-selection arma statsmodels

1

Selezione del modello con regressione logistica Firth

In un piccolo set di dati ( ) con cui sto lavorando, diverse variabili mi danno una previsione / separazione perfetta . Uso quindi la regressione logistica di Firth per affrontare il problema.n ∼ 100n~100n\sim100 Se seleziono il modello migliore per AIC o BIC , dovrei includere il termine di …

21 logistic model-selection aic separation

2

Convalida incrociata (generalizzazione degli errori) dopo la selezione del modello

Nota: il caso è n >> p Sto leggendo Elements of Statistical Learning e ci sono varie menzioni sul modo "giusto" di fare la validazione incrociata (es. Pagina 60, pagina 245). In particolare, la mia domanda è come valutare il modello finale (senza un set di test separato) usando k-fold …

21 machine-learning model-selection data-mining cross-validation

4

Come proiettare un nuovo vettore nello spazio PCA?

Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

6

Quando eliminare un termine da un modello di regressione?

Qualcuno potrebbe avvisare se ha senso quanto segue: Ho a che fare con un normale modello lineare con 4 predittori. Ho due menti se abbandonare il termine meno significativo. Il valore è leggermente superiore a 0,05. Ho discusso a favore di lasciarlo cadere in questo modo: moltiplicare la stima di …

20 regression model-selection

4

Quali sono i valori corretti per precisione e richiamo nei casi limite?

La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

La regolarizzazione può essere utile se siamo interessati solo alla modellazione, non alla previsione?

La regolarizzazione può essere utile se siamo interessati solo a stimare (e interpretare) i parametri del modello, non a previsioni o previsioni? Vedo come la regolarizzazione / convalida incrociata sia estremamente utile se il tuo obiettivo è fare buone previsioni su nuovi dati. Ma cosa succede se stai facendo economia …

19 cross-validation econometrics model-selection interpretation regularization

2

Come scegliere la struttura di effetti casuali e fissi in modelli misti lineari?

Considera i seguenti dati da una progettazione bidirezionale all'interno dei soggetti: df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim …

19 mixed-model repeated-measures model-selection lme4-nlme likelihood-ratio

7

Misure della complessità del modello

Come possiamo confrontare la complessità di due modelli con lo stesso numero di parametri? Modifica 19/09 : Per chiarire, la complessità del modello è una misura di quanto sia difficile imparare da dati limitati. Quando due modelli si adattano ugualmente bene ai dati esistenti, un modello con una complessità inferiore …

19 model-selection

1

Paradosso nella selezione dei modelli (AIC, BIC, per spiegare o prevedere?)

Dopo aver letto "To Explain or to Predict" (2010) di Galit Shmueli, sono perplesso da un'apparente contraddizione. Ci sono tre premesse, Scelta del modello basata su AIC rispetto a BIC (fine di p. 300 - inizio di p. 301): in poche parole, AIC dovrebbe essere usato per selezionare un modello …

18 forecasting model-selection feature-selection aic bic

4

Determinazione della migliore funzione di adattamento della curva di adattamento dalle funzioni lineari, esponenziali e logaritmiche

Contesto: Da una domanda su Mathematics Stack Exchange (posso creare un programma) , qualcuno ha una serie di punti e vuole adattarci una curva, lineare, esponenziale o logaritmica. Il solito metodo è iniziare scegliendo uno di questi (che specifica il modello), quindi eseguire i calcoli statistici.x - yX-yx-y Ma ciò …

18 regression predictive-models model-selection curve-fitting

1

BIC cerca di trovare un modello vero?

Questa domanda è un seguito o un tentativo di chiarire la possibile confusione riguardo a un argomento che io e molti altri riscontriamo un po 'difficile, per quanto riguarda la differenza tra AIC e BIC. In una bella risposta di @Dave Kellen su questo argomento ( /stats//a/767/30589 ) leggiamo: La …

17 model-selection aic bic

3

Creazione e selezione di modelli mediante Hosmer et al. 2013. Regressione logistica applicata in R

Questo è il mio primo post su StackExchange, ma lo uso da parecchio tempo, farò del mio meglio per utilizzare il formato appropriato e apportare le modifiche appropriate. Inoltre, questa è una domanda in più parti. Non ero sicuro di dover dividere la domanda in più post o in uno …

17 r logistic model-selection regression-strategies

1

I modelli residui autocorrelati rimangono anche nei modelli con strutture di correlazione appropriate e come selezionare i modelli migliori?

Contesto Questa domanda utilizza R, ma riguarda questioni statistiche generali. Sto analizzando gli effetti dei fattori di mortalità (percentuale di mortalità dovuta a malattia e parassitismo) sul tasso di crescita della popolazione delle falene nel tempo, in cui le popolazioni larvali sono state campionate da 12 siti una volta all'anno …

17 model-selection autocorrelation residuals panel-data spatio-temporal

Domande taggate «model-selection»