I dati categorici (detti anche nominali) possono assumere un numero limitato di possibili valori chiamati categorie. I valori categorici "etichetta", non "misurano". Utilizzare il tag [dati ordinali] per tipi di dati discreti ma ordinati.
Sono consapevole del fatto che le variabili categoriali con livelli k dovrebbero essere codificate con variabili k-1 nella codifica fittizia (analogamente per le variabili categoriali multivalore). Mi chiedevo quanto fosse un problema una codifica one-hot (ovvero usando invece le variabili k) rispetto alla codifica fittizia per diversi metodi di regressione, …
Quindi ho letto alcuni post sul perché il binning dovrebbe sempre essere evitato. Un riferimento popolare per tale affermazione è questo link . La fuga principale è che i punti di binning (o punti di interruzione) sono piuttosto arbitrari così come la conseguente perdita di informazioni e che le spline …
Faccio ricerche sui giochi educativi e alcuni dei miei progetti attuali prevedono l'utilizzo dei dati di BoardGameGeek (BGG) e VideoGameGeek (VGG) per esaminare le relazioni tra elementi di design dei giochi (ovvero "ambientati nella seconda guerra mondiale", "implica lanciare dadi" ) e le classificazioni dei giocatori di quei giochi (ovvero, …
Quando è utile la trasformazione del peso dell'evidenza (WOE) delle variabili categoriali? L'esempio può essere visto nella trasformazione di WOE (Così, per una risposta , e un predittore categoriale con categorie, e successi fuori prove all'interno della esima categoria di questo predittore, il Guai alla esima categoria è definito comek …
Qualcuno può dirmi qual è il nome di questo tipo di diagramma (se presente)? Qualcuno può anche suggerire qualche strumento, per quanto semplice, per tracciare un diagramma del genere?
Quindi, ad esempio, ecco le definizioni che ottengo dai libri di testo standard Variabile - caratteristica della popolazione o del campione. ex. Prezzo di uno stock o grado in un test Dati - valori osservati effettivi Quindi, per un rapporto a due colonne [Nome | Reddito] i nomi delle colonne …
Sto testando l'indipendenza di due variabili, A e B, stratificate per C. A e B sono variabili binarie e C è categoriale (5 valori). Eseguendo il test esatto di Fisher per A e B (tutti gli strati combinati), ottengo: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## …
Sto lavorando su un set di dati. Dopo aver usato alcune tecniche di identificazione del modello, sono uscito con un modello ARIMA (0,2,1). Ho usato la detectIOfunzione nel pacchetto TSAin R per rilevare un valore anomalo innovativo (IO) alla 48a osservazione del mio set di dati originale. Come posso incorporare …
Proverò a descrivere il problema a portata di mano il più generale possibile. Sto modellando le osservazioni come una distribuzione categoriale con un parametro probabilità vettore theta. Quindi, presumo che il parametro vector theta segua una distribuzione precedente di Dirichlet con parametri .α1, α2, ... , αKα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k È quindi possibile …
Ho notato mentre armeggiavo con un modello di regressione multivariata c'era un piccolo ma evidente effetto multicollinearità, misurato da fattori di inflazione di varianza, all'interno delle categorie di una variabile categoriale (ovviamente dopo aver escluso la categoria di riferimento). Ad esempio, supponiamo di avere un set di dati con la …
Sto cercando di trovare la correlazione tra una dicotomia e una variabile continua. Dal mio lavoro a terra su questo ho scoperto che devo usare un test t indipendente e il presupposto è che la distribuzione della variabile deve essere normale. Ho eseguito il test di Kolmogorov-Smirnov per testare la …
Devo fare la regressione logistica binaria con molte variabili indipendenti. La maggior parte di essi è binaria, ma alcune delle variabili categoriali hanno più di due livelli. Qual è il modo migliore per gestire tali variabili? Ad esempio, per una variabile con tre possibili valori, suppongo che debbano essere create …
Devo analizzare con R i dati di un sondaggio medico (con oltre 100 colonne codificate) che arriva in un CSV. Userò sonaglio per un po 'l'analisi iniziale, ma dietro le quinte è ancora R. Se leggo il file.csv () , le colonne con codici numerici vengono trattate come dati numerici. …
Ho un frame di dati in Python in cui devo trovare tutte le variabili categoriali. Il controllo del tipo di colonna non funziona sempre perché il inttipo può anche essere categorico. Quindi cerco aiuto nel trovare il giusto metodo di test di ipotesi per identificare se una colonna è categorica …
I modelli penalizzati possono essere utilizzati per stimare modelli in cui il numero di parametri è uguale o addirittura maggiore della dimensione del campione. Questa situazione può verificarsi in modelli log-lineari di grandi tabelle sparse di dati categorici o di conteggio. In queste impostazioni, è spesso anche desiderabile o utile …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.