Statistiche e Big Data binary-data

10

Misura entropia / informazioni / schemi di una matrice binaria 2d

Voglio misurare l'entropia / la densità di informazioni / la somiglianza del modello di una matrice binaria bidimensionale. Vorrei mostrare alcune immagini per chiarimenti: Questo display dovrebbe avere un'entropia piuttosto elevata: UN) Questo dovrebbe avere entropia media: B) Queste immagini, infine, dovrebbero avere tutte un'entropia quasi zero: C) D) E) …

53 algorithms binary-data entropy pattern-recognition information

6

Classificazione binaria con classi fortemente sbilanciate

Ho un set di dati sotto forma di (funzionalità, output binario 0 o 1), ma 1 si verifica abbastanza raramente, quindi solo prevedendo sempre 0, ottengo una precisione tra il 70% e il 90% (a seconda dei dati particolari che guardo ). I metodi ML mi danno la stessa accuratezza, …

52 machine-learning classification binary-data unbalanced-classes

4

Soglia di probabilità di classificazione

Ho una domanda sulla classificazione in generale. Sia f un classificatore, che genera un insieme di probabilità dati alcuni dati D. Normalmente, si direbbe: beh, se P (c | D)> 0,5, assegneremo una classe 1, altrimenti 0 (sia un binario classificazione). La mia domanda è: cosa succede se scopro che …

49 machine-learning classification binary-data threshold

3

È significativo calcolare la correlazione di Pearson o Spearman tra due vettori booleani?

Esistono due vettori booleani, che contengono solo 0 e 1. Se calcolo la correlazione di Pearson o Spearman, sono significativi o ragionevoli?

42 correlation binary-data pearson-r spearman-rho

3

PCA funzionerebbe con tipi di dati booleani (binari)?

Voglio ridurre la dimensionalità dei sistemi di ordine superiore e catturare la maggior parte della covarianza su un campo preferibilmente bidimensionale o monodimensionale. Capisco che ciò può essere fatto tramite l'analisi dei componenti principali e ho usato PCA in molti scenari. Tuttavia, non l'ho mai usato con tipi di dati …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

1

Effettuare analisi dei componenti principali o analisi dei fattori su dati binari

Ho un set di dati con un gran numero di risposte Sì / No. Posso utilizzare i componenti principali (PCA) o altre analisi di riduzione dei dati (come l'analisi dei fattori) per questo tipo di dati? Si prega di avvisare come faccio a fare questo usando SPSS.

30 spss categorical-data pca factor-analysis binary-data

1

Esistono analisi fattoriali o PCA per dati ordinali o binari?

Ho completato l'analisi dei componenti principali (PCA), l'analisi dei fattori esplorativi (EFA) e l'analisi dei fattori di conferma (CFA), trattando i dati con una scala di likert (risposte a 5 livelli: nessuna, un po ', alcune, ..) come continua variabile. Quindi, usando Lavaan, ho ripetuto il CFA definendo le variabili …

28 pca factor-analysis ordinal-data binary-data likert

2

Come utilizzare insieme variabili binarie e continue nel clustering?

Devo usare variabili binarie (valori 0 e 1) in k-medie. Ma k-mean funziona solo con variabili continue. So che alcune persone usano ancora queste variabili binarie in k-means ignorando il fatto che k-mean è progettato solo per variabili continue. Questo è inaccettabile per me. Domande: Quindi qual è il modo …

27 r clustering binary-data k-means mixed-type-data

7

Perché il genere è in genere codificato 0/1 anziché 1/2, ad esempio?

Comprendo la logica della codifica per l'analisi dei dati. La mia domanda che segue è sull'uso di un codice specifico. C'è un motivo per cui il genere è spesso codificato come 0 per la femmina e 1 per il maschio? Perché questa codifica è considerata "standard"? Confronta questo con Female …

25 data-transformation binary-data categorical-encoding units

5

Dovresti mai standardizzare le variabili binarie?

Ho un set di dati con un set di funzionalità. Alcuni di essi sono binari attivo o attivato, inattivo o inattivo) e il resto ha un valore reale, ad esempio .( 1 =(1=(1=0 =0=0=4564.3424564.3424564.342 Voglio fornire questi dati a un algoritmo di apprendimento automatico, quindi ho eseguito il punteggio tutte …

25 machine-learning normalization binary-data

3

Visualizzazione della calibrazione della probabilità prevista di un modello

Supponiamo che io abbia un modello predittivo che produce, per ogni istanza, una probabilità per ogni classe. Ora riconosco che ci sono molti modi per valutare un tale modello se voglio usare quelle probabilità per la classificazione (precisione, richiamo, ecc.). Riconosco anche che una curva ROC e l'area sottostante possono …

23 data-visualization classification predictive-models binary-data calibration

3

Genera dati correlati casuali tra una variabile binaria e una continua

Voglio generare due variabili. Uno è una variabile di risultato binario (dire successo / fallimento) e l'altro è l'età in anni. Voglio che l'età sia correlata positivamente con il successo. Ad esempio, dovrebbero esserci più successi nei segmenti di età superiore rispetto a quelli inferiori. Idealmente, dovrei essere in grado …

23 correlation random-variable random-generation binary-data

2

Clustering di una matrice binaria

Ho una matrice semi-piccola di caratteristiche binarie di dimensione 250k x 100. Ogni riga è un utente e le colonne sono "tag" binari di alcuni comportamenti dell'utente, ad esempio "like_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 …

22 r clustering binary-data

2

Coefficienti di somiglianza per i dati binari: perché scegliere Jaccard su Russell e Rao?

Da Encyclopedia of Statistical Sciences ho capito che dati gli attributi (dicotomici (binari: 1 = presenti; 0 = assenti) (variabili), possiamo formare una tabella di contingenza per due oggetti i e j di un campione:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c …

20 binary-data similarities association-measure

4

L'accuratezza della macchina con incremento gradiente diminuisce all'aumentare del numero di iterazioni

Sto sperimentando l'algoritmo della macchina per aumentare il gradiente tramite il caretpacchetto in R. Utilizzando un piccolo set di dati di ammissione al college, ho eseguito il seguente codice: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

Domande taggate «binary-data»