Statistiche e Big Data binary-data

1

Qual è l'intuizione dietro i campioni scambiabili sotto l'ipotesi nulla?

I test di permutazione (chiamati anche test di randomizzazione, test di ri-randomizzazione o test esatto) sono molto utili e sono utili quando l'assunzione della distribuzione normale richiesta da per esempio t-testnon è soddisfatta e quando la trasformazione dei valori per classifica del test non parametrici come Mann-Whitney-U-testquesto porterebbero alla perdita …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

5

Come si fa la classificazione del testo di una classe?

Devo affrontare un problema di classificazione del testo. Un crawler Web esegue la scansione delle pagine Web di un determinato dominio e per ogni pagina Web voglio scoprire se appartiene a una sola classe specifica o meno. Cioè, se chiamo questa classe positiva , ogni pagina web sottoposta a scansione …

14 classification text-mining naive-bayes binary-data

1

Alla ricerca di un passaggio attraverso un esempio di analisi fattoriale su dati dicotomici (variabili binarie) usando R

Ho alcuni dati dicotomici, solo variabili binarie, e il mio capo mi ha chiesto di eseguire un'analisi fattoriale usando la matrice delle correlazioni tetrachoriche. In precedenza sono stato in grado di insegnare a me stesso come eseguire diverse analisi basate sugli esempi qui e sul sito stat dell'UCLA e altri …

14 r factor-analysis psychometrics binary-data

1

Partizionamento della varianza e cambiamenti longitudinali in correlazione con i dati binari

Sto analizzando i dati su 300.000 alunni in 175 scuole con un modello logistico lineare a effetti misti (intercettazioni casuali). Ogni alunno si verifica esattamente una volta e i dati durano 6 anni. Come dividere la varianza tra la scuola e il livello degli alunni, in modo simile al VPC …

14 mixed-model binary-data

3

Qual è l'effetto delle variabili dicotomizzanti?

Nella dicotomizzazione delle variabili, quali informazioni si perdono nel processo? In che modo una dicotomizzazione aiuta nelle analisi?

14 regression data-transformation binary-data

2

Esiste un pacchetto R per risposte binarie longitudinali a tempo continuo?

Il bildpacchetto sembra essere un pacchetto eccellente per le risposte binarie seriali. Ma è per tempo discreto. Vorrei specificare una funzione regolare del tempo per la connessione del rapporto di probabilità della risposta corrente Y con risposte binarie misurate in tempi precedenti, o almeno una versione Markov del primo ordine …

13 r repeated-measures binary-data panel-data

1

LARS vs discesa delle coordinate per il lazo

Quali sono i pro e i contro dell'utilizzo di LARS [1] rispetto all'utilizzo della discesa delle coordinate per l'adattamento della regressione lineare regolarizzata L1? Sono principalmente interessato agli aspetti prestazionali (i miei problemi tendono ad avere Ntra le centinaia di migliaia e p<20). Tuttavia, anche altre intuizioni sarebbero apprezzate. modifica: …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Come scegliere la larghezza ottimale del contenitore durante la calibrazione dei modelli di probabilità?

Sfondo: ci sono alcune grandi domande / risposte qui su come calibrare i modelli che prevedono le probabilità che si verifichi un risultato. Per esempio Punteggio di Brier e sua scomposizione in risoluzione, incertezza e affidabilità . Grafici di calibrazione e regressione isotonica . Questi metodi spesso richiedono l'uso di …

12 probability predictive-models binary-data calibration scoring-rules

4

Previsione di serie temporali binarie

Ho una serie temporale binaria con 1 quando l'auto non si muove e 0 quando l'auto si muove. Voglio fare una previsione per un orizzonte temporale fino a 36 ore in anticipo e per ogni ora. Il mio primo approccio è stato quello di utilizzare un Naive Bayes utilizzando i …

12 r time-series forecasting binary-data

2

ottimizzazione di auc vs logloss nei problemi di classificazione binaria

Sto eseguendo un'attività di classificazione binaria in cui la probabilità di risultato è abbastanza bassa (intorno al 3%). Sto cercando di decidere se ottimizzare tramite AUC o perdita di log. Per quanto ho capito, l'AUC massimizza la capacità del modello di discriminare tra le classi mentre il logloss penalizza la …

12 classification binary-data auc log-loss

2

Probit minimi quadrati a due stadi (2SLS)

Mi è stato detto che è possibile eseguire una regressione IV a due stadi in cui il primo è un probit e il secondo è un OLS. È possibile utilizzare 2SLS se il primo stadio è un probit ma il secondo è un modello probit / poisson?

12 binary-data instrumental-variables probit 2sls

3

Come posso verificare se il mio raggruppamento di dati binari è significativo

Sto facendo analisi del carrello della spesa il mio set di dati è un insieme di vettori di transazione, con gli articoli che i prodotti vengono acquistati. Quando si applicano i mezzi k sulle transazioni, otterrò sempre dei risultati. Una matrice casuale mostrerebbe probabilmente anche alcuni cluster. C'è un modo …

12 clustering statistical-significance binary-data

4

Regressione logistica e punto di flesso

Abbiamo dati con esito binario e alcune covariate. Ho usato la regressione logistica per modellare i dati. Solo una semplice analisi, niente di straordinario. L'output finale dovrebbe essere una curva dose-risposta in cui mostriamo come cambia la probabilità per una specifica covariata. Qualcosa come questo: Abbiamo ricevuto alcune critiche da …

11 regression logistic generalized-linear-model binary-data

1

R / mgcv: Perché i prodotti tensor te () e ti () producono superfici diverse?

Il mgcvpacchetto per Rha due funzioni per adattare le interazioni del prodotto tensore: te()e ti(). Comprendo la divisione di base del lavoro tra i due (adattamento di un'interazione non lineare rispetto alla scomposizione di questa interazione in effetti principali e un'interazione). Quello che non capisco è perché te(x1, x2)e ti(x1) …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Quale algoritmo dovrei usare per raggruppare un enorme set di dati binari in poche categorie?

Ho una grande matrice (650K righe * 62 colonne) di dati binari (solo voci 0-1). La matrice è prevalentemente sparsa: circa l'8% è riempito. Vorrei raggrupparlo in 5 gruppi - diciamo chiamato da 1 a 5. Ho provato il clustering gerarchico e non sono stato in grado di gestire le …

11 clustering dataset k-means binary-data

Domande taggate «binary-data»