Mi sembra che per scegliere gli strumenti statistici giusti, devo prima identificare se il mio set di dati è discreto o continuo.
Potresti insegnarmi come posso verificare se i dati sono discreti o continui con R?
Mi sembra che per scegliere gli strumenti statistici giusti, devo prima identificare se il mio set di dati è discreto o continuo.
Potresti insegnarmi come posso verificare se i dati sono discreti o continui con R?
Risposte:
L'unico motivo a cui riesco immediatamente a pensare di richiedere questa decisione, è decidere l'inclusione di una variabile come continua o categorica in una regressione.
Prima di tutto, a volte non hai scelta: le variabili di carattere o i fattori (in cui qualcuno che ha fornito il data.frame ha preso la decisione per te) sono ovviamente categorici.
Questo ci lascia con variabili numeriche. Potresti essere tentato di controllare semplicemente se le variabili sono numeri interi, ma questo non è un buon criterio: guarda la prima riga di codice sotto ( x1
): queste sono 1000 osservazioni dei soli due valori e : anche se questi sono non numeri interi, questa sembra un'ovvia variabile categoriale. Quello che potresti fare per alcuni è controllare quanti valori diversi sono nei tuoi dati, anche se qualsiasi soglia che potresti utilizzare per questo sarà soggettiva, immagino:x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Tenderei a dire che una variabile che ha solo il 5% di valori univoci potrebbe essere tranquillamente definita discreta (ma, come detto: questo è soggettivo). Tuttavia: questo non lo rende un buon candidato per includerlo come variabile categoriale nel tuo modello: se hai 1000000 osservazioni e il 5% di valori univoci, ciò lascia ancora 50000 "categorie": se lo includi come categoriale, " stai andando a passare un sacco di gradi di libertà.
Immagino che questa chiamata sia ancora più soggettiva e dipenda molto dalle dimensioni del campione e dal metodo di scelta. Senza più contesto, è difficile fornire linee guida qui.
Così ora probabilmente si dispone di alcune variabili che si potrebbe aggiungere come categorica nel modello. Ma dovresti ? A questa domanda si può rispondere (anche se in realtà dipende, ancora una volta, dal proprio obiettivo) con un test del rapporto di verosimiglianza: il modello in cui la variabile è categorica è un top model del modello con la variabile come covariata continua. Per vedere questo, immaginare una regressione lineare su una variabile x
che detengono tre valori 0
, 1
e 2
. Adattamento di un modello:
dove è un indicatore variabile fittizio (è uguale a 1 se ) è solo più flessibile modo di adattare un modello
Con la struttura super / sottomodella, puoi scoprire se ci sono prove nei dati che la struttura più complessa è necessaria, facendo un test del rapporto di verosimiglianza : -2 volte la differenza nella massima verosimiglianza del log (tipicamente indicata come devianza in R) seguire una distribuzione con df = la differenza nel numero di parametri (nell'esempio sopra: 4 parametri - 3 parametri).