Statistiche e Big Data missing-data

4

Come posso determinare se due correlazioni sono significativamente diverse?

Voglio determinare quale di due serie di dati (B1, B2) sia meglio correlata (pere r) a un'altra serie (A). Mancano dati in tutti i set di dati. Come posso determinare se la correlazione risultante è significativamente diversa o no? Ad esempio 8426 valori sono presenti sia in A che in …

9 hypothesis-testing correlation statistical-significance missing-data

2

Schemi di ponderazione alternativa per meta-analisi di effetti casuali: deviazioni standard mancanti

Sto lavorando a una meta-analisi di effetti casuali che copre una serie di studi che non riportano deviazioni standard; tutti gli studi riportano la dimensione del campione. Non credo che sia possibile approssimare o imputare i dati mancanti SD. In che modo una meta-analisi che utilizza differenze grezze (non standardizzate) …

9 stata missing-data meta-analysis meta-regression

2

Incorporando variabili esplicative più dettagliate nel tempo

Sto cercando di capire come potrei modellare al meglio una variabile in cui nel tempo ho ottenuto predittori sempre più dettagliati. Ad esempio, prendere in considerazione la modellizzazione dei tassi di recupero sui prestiti inadempienti. Supponiamo di avere un set di dati con 20 anni di dati e nei primi …

9 regression missing-data

1

Previsione con randomForest (R) quando alcuni input hanno valori mancanti (NA)

Ho un randomForestmodello di classificazione che vorrei utilizzare in un'applicazione che prevede la classe di un nuovo caso. Il nuovo caso ha inevitabilmente valori mancanti. Predict non funzionerà come tale per i NA. Come dovrei farlo allora? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] …

9 r random-forest prediction missing-data

1

Come confrontare gli eventi osservati con quelli previsti?

Supponiamo di avere un campione di frequenze di 4 possibili eventi: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e ho le probabilità attese dei miei eventi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la somma delle frequenze osservate dei …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Regressione multipla con variabile predittore mancante

Supponiamo che ci venga fornito un insieme di dati del modulo e . Ci viene assegnato il compito di prevedere base ai valori di . Stimiamo due regressioni in cui: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y( y, …

9 regression multiple-regression missing-data multicollinearity multiple-imputation

4

Come gestire le lacune / NaN nei dati delle serie temporali quando si utilizza Matlab per autocorrelazione e reti neurali?

Ho una serie temporale di misurazioni (altezze-una serie dimensionale). Nel periodo di osservazione, il processo di misurazione è andato giù per alcuni punti temporali. Quindi i dati risultanti sono un vettore con NaN in cui vi erano lacune nei dati. Usando MATLAB, questo mi sta causando un problema durante il …

9 time-series dataset matlab autocorrelation missing-data

3

Trattare i livelli di variabili categoriali "Non so / rifiutato"

Sto modellando la previsione del diabete usando la regressione logistica. Il set di dati utilizzato è il Behavioral Risk Factor Surveillance System (BRFSS) del Center for Disease Control (CDC). Una delle variabili indipendenti è la pressione alta. È categorico con i seguenti livelli "Sì", "No", "Non so / Rifiutato". Devo …

9 logistic missing-data

7

Correlazione tra due variabili di dimensioni disuguali

In un problema su cui sto lavorando, ho due variabili casuali, X e Y. Devo capire quanto siano strettamente correlate tra loro, ma hanno dimensioni diverse. Il rango dello spazio di riga di X è 4350 e il rango dello spazio di riga di Y è sostanzialmente più grande, nelle …

9 time-series correlation missing-data finance

2

Come posso determinare se un modello di sopravvivenza con dati mancanti è appropriato?

Semplificando un po ', ho circa un milione di dischi che registrano il tempo di entrata e di uscita delle persone in un sistema che dura da circa dieci anni. Ogni record ha un orario di entrata, ma non tutti i record hanno un tempo di uscita. Il tempo medio …

9 survival missing-data

Domande taggate «missing-data»