I dati categorici (detti anche nominali) possono assumere un numero limitato di possibili valori chiamati categorie. I valori categorici "etichetta", non "misurano". Utilizzare il tag [dati ordinali] per tipi di dati discreti ma ordinati.
Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
Alcune tecniche di modellazione predittiva sono più progettate per gestire predittori continui, mentre altre sono migliori per gestire variabili categoriche o discrete. Naturalmente esistono tecniche per trasformare un tipo in un altro (discretizzazione, variabili fittizie, ecc.). Tuttavia, esistono delle tecniche di modellazione predittiva progettate per gestire entrambi i tipi di …
Ho i dati di un esperimento di indagine in cui gli intervistati sono stati assegnati in modo casuale a uno dei quattro gruppi: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 Mentre i tre gruppi di trattamento variano leggermente nello stimolo applicato, la principale distinzione a cui tengo …
Ho due variabili: Drug Name (DN) e corrispondenti eventi avversi (AE), che si trovano in una relazione molti-a-molti. Ci sono 33.556 nomi di farmaci e 9.516 eventi avversi. La dimensione del campione è di circa 5,8 milioni di osservazioni. Voglio studiare e comprendere l'associazione / relazione tra DN e AE. …
"L'ora del giorno" in cui il valore può essere 0, 1, 2, ..., 23 è una variabile categoriale? Sarei tentato di dire di no, dal momento che 5, ad esempio, è "più vicino" a 4 o 6 che a 3 o 7. D'altra parte, c'è una discontinuità tra 23 e …
Qual è la differenza tra la distribuzione binomiale negativa e la distribuzione binomiale? Ho provato a leggere online e ho scoperto che la distribuzione binomiale negativa viene utilizzata quando i punti dati sono discreti, ma penso che anche la distribuzione binomiale possa essere utilizzata per punti dati discreti.
Non sono sicuro del motivo per cui dobbiamo codificare le variabili categoriali. Ad esempio, se ho una variabile categoriale con quattro possibili valori 0,1,2,3 posso sostituirla con due dimensioni. Se la variabile avesse valore 0, avrebbe 0,0 nelle due dimensioni, se avesse 3, avrebbe 1,1 nelle due dimensioni e così …
La mia comprensione è che nell'apprendimento automatico può essere un problema se il tuo set di dati ha caratteristiche altamente correlate, poiché codificano effettivamente le stesse informazioni. Recentemente qualcuno ha sottolineato che quando si esegue la codifica one-hot su una variabile categoriale si finisce con funzionalità correlate, quindi è necessario …
Ho un set di dati con tre variabili categoriali e voglio visualizzare la relazione tra tutti e tre in un grafico. Qualche idea? Attualmente sto usando i seguenti tre grafici: Ogni grafico è per un livello di depressione basale (lieve, moderato, grave). Quindi, all'interno di ogni grafico, guardo la relazione …
Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …
Ho appena capito che ho sempre lavorato al problema della regressione in cui le variabili indipendenti erano sempre numeriche. Posso usare la regressione lineare nel caso in cui tutte le variabili indipendenti siano categoriche?
La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …
Qual è il modo migliore per mostrare una relazione tra: variabile continua e discreta, due variabili discrete? Finora ho usato grafici a dispersione per esaminare la relazione tra variabili continue. Tuttavia, in caso di variabili discrete, i punti dati vengono cumulati a determinati intervalli. Pertanto, la linea della migliore misura …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.