Statistiche e Big Data dataset

3

La selezione delle funzioni deve essere eseguita solo sui dati di allenamento (o su tutti i dati)?

La selezione delle funzioni deve essere eseguita solo sui dati di allenamento (o su tutti i dati)? Ho esaminato alcune discussioni e articoli come Guyon (2003) e Singhi e Liu (2006) , ma non sono ancora sicuro della risposta giusta. La configurazione del mio esperimento è la seguente: Set di …

10 dataset cross-validation experiment-design feature-selection

3

Qual è il modo più efficiente di addestrare i dati usando meno memoria?

Questi sono i miei dati di allenamento: 200.000 esempi x 10.000 funzioni. Quindi la mia matrice di dati di allenamento è - 200.000 x 10.000. Sono riuscito a salvarlo in un file flat senza problemi di memoria salvando ogni set di dati uno per uno (un esempio dopo l'altro) mentre …

10 machine-learning dataset algorithms python

3

Educazione statistica dei bambini in diversi paesi?

Sono interessato a sapere quale livello di statistiche i bambini stanno imparando in diversi paesi del mondo. Potresti suggerire dati / collegamenti che fanno luce su ciò che sta accadendo in questo senso? Inizierò. Israele: gli studenti che stanno studiando matematica avanzata studiano più o meno - media, sd, istogramma, …

10 dataset teaching

3

Usando Regressione per proiettare al di fuori dell'intervallo di dati ok? mai ok? a volte ok?

Cosa ne pensi dell'utilizzo della regressione per proiettare al di fuori dell'intervallo di dati? Se siamo sicuri che segue una forma del modello lineare o di potenza, il modello non potrebbe essere utile oltre l'intervallo di dati? Ad esempio, ho un volume guidato dal prezzo. Credo che dovremmo essere in …

10 regression dataset linear-model

2

Cos'è la bucketizzazione?

Sono andato in giro per trovare una chiara spiegazione della "secchezza" nell'apprendimento automatico senza fortuna. Quello che ho capito fino ad ora è che la bucketizzazione è simile alla quantizzazione nell'elaborazione del segnale digitale in cui un intervallo di valori continui viene sostituito con un valore discreto. È corretto? Quali …

10 machine-learning dataset data-preprocessing

2

Massimo e chiuso frequente - Risposta inclusa

My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E Voglio scoprire i set di oggetti frequenti massimi e i set di oggetti frequenti …

10 data-mining dataset association-rules

2

Imparare dai dati relazionali

Impostazioni Molti algoritmi operano su una singola relazione o tabella, mentre molti database del mondo reale memorizzano le informazioni in più tabelle (Domingos, 2003). Domanda Quali tipi di algoritmi apprendono bene da più tabelle (relazionali). In particolare, sono interessato agli algoritmi applicabili alle attività di regressione e classificazione (non a …

9 regression machine-learning classification dataset

1

Come confrontare gli eventi osservati con quelli previsti?

Supponiamo di avere un campione di frequenze di 4 possibili eventi: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e ho le probabilità attese dei miei eventi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la somma delle frequenze osservate dei …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Dove posso trovare set di dati utili per testare le mie implementazioni di Machine Learning? [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 5 anni fa . Attualmente sto cercando di implementare alcuni algoritmi di Machine Learning da solo. Molti di loro hanno la …

9 dataset

1

Come quantificare l'insignificanza statistica?

Sono relativamente nuovo alle statistiche e capisco che la mia domanda potrebbe essere completamente errata. Sto testando il mio algoritmo contro un altro. Mentre le uscite non sono identiche, voglio mostrare che le differenze sono "statisticamente insignificanti". Come posso quantificare questo, per fare il mio punto?

9 correlation statistical-significance dataset

4

Come gestire le lacune / NaN nei dati delle serie temporali quando si utilizza Matlab per autocorrelazione e reti neurali?

Ho una serie temporale di misurazioni (altezze-una serie dimensionale). Nel periodo di osservazione, il processo di misurazione è andato giù per alcuni punti temporali. Quindi i dati risultanti sono un vettore con NaN in cui vi erano lacune nei dati. Usando MATLAB, questo mi sta causando un problema durante il …

9 time-series dataset matlab autocorrelation missing-data

7

Alla ricerca di dati artificiali 2D per dimostrare le proprietà degli algoritmi di clustering

Sto cercando set di dati di punti dati bidimensionali (ogni punto dati è un vettore di due valori (x, y)) che seguono diverse distribuzioni e forme. Anche il codice per generare tali dati sarebbe utile. Voglio usarli per tracciare / visualizzare le prestazioni di alcuni algoritmi di clustering. Ecco alcuni …

9 distributions data-visualization clustering dataset

7

Set di dati per esempi di visualizzazione dei dati, insegnamento e ricerca

Sto cercando set di dati esistenti che possiamo utilizzare per testare diverse tecniche di datavis che stiamo studiando. Conosco diverse risorse come quelle incluse in R (prova plot(Orange)o vedi qui ). Ma vorrei fare un passo avanti: Quali sono i migliori set di dati del mondo reale per testare uno …

9 data-visualization dataset teaching

2

Calcola la curva ROC per i dati

Quindi, ho 16 prove in cui sto cercando di autenticare una persona da un tratto biometrico usando Hamming Distance. La mia soglia è impostata su 3,5. I miei dati sono di seguito e solo la versione di prova 1 è un vero positivo: Trial Hamming Distance 1 0.34 2 0.37 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Domande taggate «dataset»