I dati categorici (detti anche nominali) possono assumere un numero limitato di possibili valori chiamati categorie. I valori categorici "etichetta", non "misurano". Utilizzare il tag [dati ordinali] per tipi di dati discreti ma ordinati.
Ho appena eseguito un GLM binomiale negativo e questo è l'output: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) …
Ho un set di dati che contiene sia variabili categoriali che variabili continue. Mi è stato consigliato di trasformare le variabili categoriali in variabili binarie per ogni livello (ad esempio, A_level1: {0,1}, A_level2: {0,1}) - Penso che alcuni abbiano chiamato queste "variabili fittizie". Detto questo, sarebbe fuorviante quindi centrare e …
Sto cercando di fare previsioni usando un modello di foresta casuale in R. Tuttavia, ricevo errori poiché alcuni fattori hanno valori diversi nel set di test rispetto al set di training. Ad esempio, un fattore Cat_2ha valori 34, 68, 76, ecc., Nel set di test che non compaiono nel set …
Esistono metodi semplici per trasformare i dati di livello ordinale in livello di intervallo (proprio come per fare il contrario)? Ed eseguibile in Excel o SPSS? Avendo i dati, diciamo: 10 domande a livello ordinale (diciamo scala 0-5, dove 0 = "per niente", 5 = "tutto il tempo"), voglio trasformarle …
Ho avuto problemi con il seguente problema, si spera sia facile per gli statistici (sono un programmatore con una certa esposizione alle statistiche). Devo riassumere le risposte a un sondaggio (per la gestione). Il sondaggio ha più di 100 domande, raggruppate in diverse aree (con circa 5-10 domande per area). …
Ho un dato di vendita giornaliero per un prodotto che è altamente stagionale. Voglio catturare la stagionalità nel modello di regressione. Ho letto che se disponi di dati trimestrali o mensili, in quel caso puoi creare rispettivamente 3 e 11 variabili fittizie - ma posso gestire i dati giornalieri? Ho …
Se nella formula glm viene utilizzata una variabile fattore (ad es. Genere con livelli M e F), vengono create variabili dummy, che possono essere trovate nel riepilogo del modello glm insieme ai coefficienti associati (ad es. GenderM) Se, invece di fare affidamento su R per suddividere il fattore in questo …
Quando si codificano le caratteristiche categoriche per la regressione lineare, esiste una regola: il numero di manichini dovrebbe essere uno in meno del numero totale di livelli (per evitare la collinearità). Esiste una regola simile per gli alberi decisionali (in sacchi, potenziati)? Lo sto chiedendo perché una pratica standard in …
Vorrei eseguire una regressione logistica ordinale in Python - per una variabile di risposta con tre livelli e con alcuni fattori esplicativi. Il statsmodelspacchetto supporta i modelli binary logit e multinomial logit (MNLogit), ma non il logit ordinato. Dal momento che la matematica di base non è così diversa, mi …
Sia una distribuzione congiunta di due variabili categoriali , con . Supponiamo che da questa distribuzione siano stati estratti campioni, ma ci vengono dati solo i conteggi marginali, vale a dire per : X , Y x , y ∈ { 1 , … , K } n j = …
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
Ho un ampio set di dati di mercato aggregati sulle vendite di vino negli Stati Uniti e vorrei stimare la domanda di determinati vini di alta qualità. Queste quote di mercato sono state fondamentalmente derivate da un modello di utilità casuale nella forma dove include caratteristiche del prodotto rilevate, indica …
Ho un set di dati con 8000 cluster e 4 milioni di osservazioni. Sfortunatamente il mio software statistico, Stata, funziona piuttosto lentamente quando si usa la sua funzione di dati del pannello per la regressione logistica:, xtlogitanche con un sottocampione del 10%. Tuttavia, quando si utilizza la logitfunzione non pannello …
Nota: questa domanda è una risposta, poiché la mia domanda precedente doveva essere cancellata per motivi legali. Confrontando PROC MIXED da SAS con la funzione lmedel nlmepacchetto in R, mi sono imbattuto in alcune differenze piuttosto confuse. Più specificamente, i gradi di libertà nei diversi test differiscono tra PROC MIXEDe …
Ho una tabella di contingenza a tre livelli, con i dati di conteggio per diverse specie, la pianta ospite da cui sono state raccolte e se quella raccolta è avvenuta in una giornata piovosa (questo in realtà conta!). Usando R, i dati falsi potrebbero essere qualcosa del genere: count <- …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.