Come testare se i miei dati sono discreti o continui?


11

Mi sembra che per scegliere gli strumenti statistici giusti, devo prima identificare se il mio set di dati è discreto o continuo.

Potresti insegnarmi come posso verificare se i dati sono discreti o continui con R?


Vuoi dire se alcune variabili devono essere aggiunte come predittori continui o categorici (discreti) in un modello di tipo di regressione?
Nick Sabbe,

Come sono stati raccolti i dati e come sono state registrate le variabili vi darà probabilmente alcuni indizi a riguardo; inoltre, è probabile che dipenda dal fatto che si desideri modellare i dati come dati continui o discreti (vedere ad esempio la domanda relativa agli articoli Likert e all'analisi delle scale discrete). Punto non correlato: sarebbe utile se si potesse registrare il proprio account una volta per tutte, e magari prendere in considerazione l'accettazione di risposte o la revisione delle domande precedenti.
chl

fare un qqnorm e se i punti sono tutti lungo la diagonale i dati sono continui (se è nelle linee horiontal è discreto)
user222362

Risposte:


14

L'unico motivo a cui riesco immediatamente a pensare di richiedere questa decisione, è decidere l'inclusione di una variabile come continua o categorica in una regressione.

Prima di tutto, a volte non hai scelta: le variabili di carattere o i fattori (in cui qualcuno che ha fornito il data.frame ha preso la decisione per te) sono ovviamente categorici.

Questo ci lascia con variabili numeriche. Potresti essere tentato di controllare semplicemente se le variabili sono numeri interi, ma questo non è un buon criterio: guarda la prima riga di codice sotto ( x1): queste sono 1000 osservazioni dei soli due valori e : anche se questi sono non numeri interi, questa sembra un'ovvia variabile categoriale. Quello che potresti fare per alcuni è controllare quanti valori diversi sono nei tuoi dati, anche se qualsiasi soglia che potresti utilizzare per questo sarà soggettiva, immagino:-1.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Tenderei a dire che una variabile che ha solo il 5% di valori univoci potrebbe essere tranquillamente definita discreta (ma, come detto: questo è soggettivo). Tuttavia: questo non lo rende un buon candidato per includerlo come variabile categoriale nel tuo modello: se hai 1000000 osservazioni e il 5% di valori univoci, ciò lascia ancora 50000 "categorie": se lo includi come categoriale, " stai andando a passare un sacco di gradi di libertà.

Immagino che questa chiamata sia ancora più soggettiva e dipenda molto dalle dimensioni del campione e dal metodo di scelta. Senza più contesto, è difficile fornire linee guida qui.

Così ora probabilmente si dispone di alcune variabili che si potrebbe aggiungere come categorica nel modello. Ma dovresti ? A questa domanda si può rispondere (anche se in realtà dipende, ancora una volta, dal proprio obiettivo) con un test del rapporto di verosimiglianza: il modello in cui la variabile è categorica è un top model del modello con la variabile come covariata continua. Per vedere questo, immaginare una regressione lineare su una variabile xche detengono tre valori 0, 1e 2. Adattamento di un modello: dove è un indicatore variabile fittizio (è uguale a 1 se ) è solo più flessibile modo di adattare un modello

E[y]=β0+β11X1+β12X2
XioX==io
E[y]=β0+β1X
perché l'ultimo è equivalente a
E[y]=β0+β1X1+2β1X2

Con la struttura super / sottomodella, puoi scoprire se ci sono prove nei dati che la struttura più complessa è necessaria, facendo un test del rapporto di verosimiglianza : -2 volte la differenza nella massima verosimiglianza del log (tipicamente indicata come devianza in R) seguire una distribuzione con df = la differenza nel numero di parametri (nell'esempio sopra: 4 parametri - 3 parametri).χ2


3
+1 Un bell'esempio di come migliorare la domanda dispari con un'ottima risposta.

1
In effetti, qualsiasi continuo può essere discretizzato, facendo degli istogrammi che mostrano semplicemente come si fa nella pratica. Probabilmente ho confuso i dati di conteggio (dati di valore intero) con categorici ... anche se la mia prima ipotesi riguardava distribuzioni discrete e continue, non solo punti di dati (e ricercatori pazzi che assegnano valori reali alle categorie), quindi ... ho comunque eliminato il mio , poiché non credo che risolva il problema (+1)
Dmitrij Celov,

1
sembra che @Dmitrij abbia rimosso la sua risposta, potresti per favore modificare la tua risposta per riflettere? È un'ottima risposta (+1), quindi il riferimento a contenuti inesistenti sporge un po '.
mpiktas,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.