Costruire rappresentazioni grafiche significative e utili dei dati. (Se la tua domanda riguarda solo come ottenere un determinato software per produrre un effetto specifico, probabilmente non è qui sull'argomento.)
Sto lavorando con un piccolo set di dati (21 osservazioni) e ho il seguente diagramma QQ normale in R: Visto che la trama non supporta la normalità, cosa potrei dedurre sulla distribuzione sottostante? Mi sembra che una distribuzione più inclinata a destra sarebbe più adatta, giusto? Inoltre, quali altre conclusioni …
Supponiamo che io voglia vedere se i miei dati sono esponenziali in base a un istogramma (cioè inclinato a destra). A seconda di come raggruppo o bin i dati, posso ottenere istogrammi selvaggiamente diversi. Una serie di istogrammi farà sembrare che i dati siano esponenziali. Un altro set farà sembrare …
Sono stati condotti studi su quali sono i migliori set di colori da utilizzare per mostrare più serie sulla stessa trama? Ho appena usato le impostazioni predefinite matplotlibe sembrano un po 'infantili poiché sono tutti colori brillanti e primari.
Avevo una domanda sull'interpretazione dei grafici generati dalla trama (lm) in R. Mi stavo chiedendo se potreste dirmi come interpretare i grafici della posizione in scala e della leva residua? Eventuali commenti sarebbero apprezzati. Assumi le conoscenze di base di statistica, regressione ed econometria.
Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
Sto usando R per fare il clustering di K-significa. Sto usando 14 variabili per eseguire K-medie Qual è un modo carino per tracciare i risultati di K-mean? Ci sono implementazioni esistenti? Avere 14 variabili complica la rappresentazione dei risultati? Ho trovato qualcosa chiamato GGcluster che sembra bello ma è ancora …
Per uno studio di simulazione devo generare variabili casuali che mostrano una correlazione (popolazione) predefinita a una variabile esistente .YYY Ho esaminato i Rpacchetti copulae CDVineche possono produrre distribuzioni multivariate casuali con una determinata struttura di dipendenza. Tuttavia, non è possibile fissare una delle variabili risultanti su una variabile esistente. …
L'analisi di correlazione canonica (CCA) è una tecnica correlata all'analisi dei componenti principali (PCA). Mentre è facile insegnare la PCA o la regressione lineare usando un diagramma a dispersione (vedere alcune migliaia di esempi sulla ricerca di immagini di Google), non ho visto un simile esempio bidimensionale intuitivo per CCA. …
Chiunque ha ricevuto suggerimenti sulla libreria o sul codice su come tracciare effettivamente un paio di alberi di esempio da: getTree(rfobj, k, labelVar=TRUE) (Sì, lo so che non dovresti farlo operativamente, RF è una scatola nera, ecc. Ecc. Voglio controllare visivamente la sanità mentale di un albero per vedere se …
Ho una trama che sto realizzando in ggplot2 per riassumere i dati che provengono da un set di dati a celle 2 x 4 x 3. Sono stato in grado di creare pannelli per la variabile a 2 livelli usando facet_grid(. ~ Age)e di impostare gli assi xey aes(x=4leveledVariable, y=DV). …
Ho letto che l'uso di scale di log quando la creazione di grafici / grafici è appropriato in determinate circostanze, come l'asse y in un grafico di serie temporali. Tuttavia, non sono stato in grado di trovare una spiegazione definitiva sul perché sia così o quando altrimenti sarebbe appropriato. Tieni …
Qualcuno ha qualche esperienza con il software (preferibilmente gratuito, preferibilmente open source) che acquisirà un'immagine dei dati tracciati su coordinate cartesiane (una trama standard quotidiana) ed estrarrà le coordinate dei punti tracciati sul grafico? In sostanza, si tratta di un problema di data mining e di visualizzazione inversa dei dati.
Ho letto il libro di Tukey "Exploratory Data Analysis". Scritto nel 1977, il libro sottolinea i metodi di carta / matita. Esiste un successore più "moderno" che tenga conto del fatto che ora possiamo tracciare istantaneamente grandi insiemi di dati?
Ho i dati di un test che potrebbe essere utilizzato per distinguere le cellule normali e tumorali. Secondo la curva ROC sembra buono per questo scopo (l'area sotto la curva è 0.9): Le mie domande sono: Come determinare il punto limite per questo test e il suo intervallo di confidenza …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.