Statistiche e Big Data data-visualization

4

Sto lavorando con un piccolo set di dati (21 osservazioni) e ho il seguente diagramma QQ normale in R: Visto che la trama non supporta la normalità, cosa potrei dedurre sulla distribuzione sottostante? Mi sembra che una distribuzione più inclinata a destra sarebbe più adatta, giusto? Inoltre, quali altre conclusioni …

173 r data-visualization inference qq-plot

4

Valutazione della distribuzione approssimativa dei dati basata su un istogramma

Supponiamo che io voglia vedere se i miei dati sono esponenziali in base a un istogramma (cioè inclinato a destra). A seconda di come raggruppo o bin i dati, posso ottenere istogrammi selvaggiamente diversi. Una serie di istogrammi farà sembrare che i dati siano esponenziali. Un altro set farà sembrare …

111 distributions data-visualization histogram binning

11

Serie di colori "migliori" da utilizzare per differenziare le serie in grafici di qualità di pubblicazione

Sono stati condotti studi su quali sono i migliori set di colori da utilizzare per mostrare più serie sulla stessa trama? Ho appena usato le impostazioni predefinite matplotlibe sembrano un po 'infantili poiché sono tutti colori brillanti e primari.

89 data-visualization

1

Interpretazione plot.lm ()

Avevo una domanda sull'interpretazione dei grafici generati dalla trama (lm) in R. Mi stavo chiedendo se potreste dirmi come interpretare i grafici della posizione in scala e della leva residua? Eventuali commenti sarebbero apprezzati. Assumi le conoscenze di base di statistica, regressione ed econometria.

89 r regression data-visualization residuals outliers

3

Un esempio: regressione di LASSO utilizzando glmnet per il risultato binario

Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Come produrre un bel diagramma dei risultati dell'analisi dei cluster di k-mean?

Sto usando R per fare il clustering di K-significa. Sto usando 14 variabili per eseguire K-medie Qual è un modo carino per tracciare i risultati di K-mean? Ci sono implementazioni esistenti? Avere 14 variabili complica la rappresentazione dei risultati? Ho trovato qualcosa chiamato GGcluster che sembra bello ma è ancora …

77 data-visualization classification k-means unsupervised-learning

8

Genera una variabile casuale con una correlazione definita con una o più variabili esistenti

Per uno studio di simulazione devo generare variabili casuali che mostrano una correlazione (popolazione) predefinita a una variabile esistente .YYY Ho esaminato i Rpacchetti copulae CDVineche possono produrre distribuzioni multivariate casuali con una determinata struttura di dipendenza. Tuttavia, non è possibile fissare una delle variabili risultanti su una variabile esistente. …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

Come visualizzare quale analisi di correlazione canonica fa (rispetto a quale analisi di componente principale fa)?

L'analisi di correlazione canonica (CCA) è una tecnica correlata all'analisi dei componenti principali (PCA). Mentre è facile insegnare la PCA o la regressione lineare usando un diagramma a dispersione (vedere alcune migliaia di esempi sulla ricerca di immagini di Google), non ho visto un simile esempio bidimensionale intuitivo per CCA. …

70 regression data-visualization pca canonical-correlation geometry

3

Come tracciare un albero di esempio da randomForest :: getTree ()? [chiuso]

Chiunque ha ricevuto suggerimenti sulla libreria o sul codice su come tracciare effettivamente un paio di alberi di esempio da: getTree(rfobj, k, labelVar=TRUE) (Sì, lo so che non dovresti farlo operativamente, RF è una scatola nera, ecc. Ecc. Voglio controllare visivamente la sanità mentale di un albero per vedere se …

62 r data-visualization random-forest cart

9

Come visualizzare cosa fa ANOVA?

In che modo (modi?) Esiste per spiegare visivamente cos'è ANOVA? Eventuali riferimenti, link (s) (pacchetti R?) Saranno i benvenuti.

60 data-visualization anova teaching

2

Come posso cambiare il titolo di una legenda in ggplot2? [chiuso]

Ho una trama che sto realizzando in ggplot2 per riassumere i dati che provengono da un set di dati a celle 2 x 4 x 3. Sono stato in grado di creare pannelli per la variabile a 2 livelli usando facet_grid(. ~ Age)e di impostare gli assi xey aes(x=4leveledVariable, y=DV). …

58 r data-visualization ggplot2

3

Quando sono appropriate le scale del registro?

Ho letto che l'uso di scale di log quando la creazione di grafici / grafici è appropriato in determinate circostanze, come l'asse y in un grafico di serie temporali. Tuttavia, non sono stato in grado di trovare una spiegazione definitiva sul perché sia così o quando altrimenti sarebbe appropriato. Tieni …

57 data-visualization data-transformation

12

Software necessario per raschiare i dati dal grafico [chiuso]

Qualcuno ha qualche esperienza con il software (preferibilmente gratuito, preferibilmente open source) che acquisirà un'immagine dei dati tracciati su coordinate cartesiane (una trama standard quotidiana) ed estrarrà le coordinate dei punti tracciati sul grafico? In sostanza, si tratta di un problema di data mining e di visualizzazione inversa dei dati.

56 data-visualization data-mining software

8

Moderno successore dell'analisi dei dati esplorativi di Tukey?

Ho letto il libro di Tukey "Exploratory Data Analysis". Scritto nel 1977, il libro sottolinea i metodi di carta / matita. Esiste un successore più "moderno" che tenga conto del fatto che ora possiamo tracciare istantaneamente grandi insiemi di dati?

52 data-visualization references descriptive-statistics eda

6

Come determinare il miglior punto di taglio e il suo intervallo di confidenza usando la curva ROC in R?

Ho i dati di un test che potrebbe essere utilizzato per distinguere le cellule normali e tumorali. Secondo la curva ROC sembra buono per questo scopo (l'area sotto la curva è 0.9): Le mie domande sono: Come determinare il punto limite per questo test e il suo intervallo di confidenza …

51 r data-visualization confidence-interval roc ggplot2

Domande taggate «data-visualization»