Ha mai senso trattare i dati categorici come continui?


57

Nel rispondere a questa domanda su dati discreti e continui ho asserito con disinvoltura che raramente ha senso trattare i dati categorici come continui.

A prima vista sembra evidente, ma l'intuizione è spesso una cattiva guida per le statistiche, o almeno lo è la mia. Quindi ora mi chiedo: è vero? Oppure esistono analisi consolidate per le quali è effettivamente utile una trasformazione da dati categorici a un continuum? Farebbe differenza se i dati fossero ordinali?


20
Questa domanda e le sue risposte ci ricordano quanto sia grossolana e limitata questa antiquata divisione delle variabili in un rapporto categorico-ordinale-intervallo. Può guidare l'istinto statisticamente ingenuo, ma per l'analista riflessivo o esperto è un ostacolo, un ostacolo nel modo di esprimere le variabili in modi appropriati per i dati e le decisioni da prendere con loro. Qualcuno che lavora da quest'ultimo punto di vista si sposterà liberamente tra rappresentazioni di dati categoriche e "continue"; per loro, questa domanda non può nemmeno sorgere! Invece, dovremmo chiedere: in che modo aiuta?
whuber

@whuber (+1) Almeno, sembra difficile ottimizzare l'affidabilità della misurazione e l'accuratezza diagnostica allo stesso tempo.
chl,

Risposte:


34

Presumo che una variabile "categorica" ​​rappresenti effettivamente una variabile ordinale; altrimenti non ha molto senso trattarlo come continuo, a meno che non sia una variabile binaria (codificata 0/1) come indicato da @Rob. Quindi, direi che il problema non è tanto il modo in cui trattiamo la variabile, sebbene finora siano stati sviluppati molti modelli per l'analisi categorica dei dati - vedi ad es. L'analisi dei dati categorici ordinati: una panoramica e un'indagine di recente sviluppi da Liu e Agresti--, rispetto alla scala di misurazione sottostante che ipotizziamo. La mia risposta si concentrerà su questo secondo punto, anche se per prima cosa parlerò brevemente dell'assegnazione di punteggi numerici a categorie o livelli variabili.

Usando una semplice ricodifica numerica di una variabile ordinale, si assume che la variabile abbia proprietà intervallo (nel senso della classificazione data da Stevens, 1946). Dal punto di vista della teoria della misurazione (in psicologia), questo può spesso essere un presupposto troppo forte, ma per uno studio di base (ovvero dove un singolo oggetto viene utilizzato per esprimere la propria opinione su un'attività quotidiana con una formulazione chiara) qualsiasi punteggio monotono dovrebbe dare risultati comparabili . Cochran (1954) lo ha già indicato

qualsiasi set di punteggi fornisce un test valido , a condizione che siano costruiti senza consultare i risultati dell'esperimento. Se l'insieme dei punteggi è scarso, in quanto distorce gravemente una scala numerica che è alla base della classificazione ordinata, il test non sarà sensibile. I punteggi dovrebbero quindi incarnare le migliori informazioni disponibili sul modo in cui la classificazione è stata costruita e utilizzata. (p. 436)

(Mille grazie a @whuber per avermelo ricordato durante uno dei suoi commenti, che mi ha portato a rileggere il libro di Agresti, da cui proviene questa citazione.)

M2M2=(n1)r2

Bene, puoi anche decidere di ricodificare la tua variabile su un intervallo irregolare o aggregare alcuni dei suoi livelli, ma in questo caso un forte squilibrio tra le categorie ricodificate può distorcere i test statistici, ad esempio il test di tendenza di cui sopra. Una buona alternativa per assegnare la distanza tra le categorie era già stata proposta da @Jeromy, ovvero un ridimensionamento ottimale.

Ora, discutiamo il secondo punto che ho sollevato, quello del modello di misurazione sottostante. Sto sempre esitando ad aggiungere il tag "psicometria" quando vedo questo tipo di domanda, perché la costruzione e l'analisi delle scale di misurazione rientrano nella teoria psicometrica (Nunnally e Bernstein, 1994, per una chiara panoramica). Non mi soffermerò su tutti i modelli che sono effettivamente guidati dalla teoria della risposta agli oggetti , e rimando gentilmente il lettore interessato al I. Tutorial di Partchev, Una guida visiva alla teoria della risposta degli oggetti, per una delicata introduzione all'IRT e ai riferimenti (5-8) elencati alla fine per possibili tassonomie dell'IRT. In breve, l'idea è che invece di assegnare distanze arbitrarie tra categorie variabili, si assume una scala latente e si stima la loro posizione su quel continuum, insieme all'abilità o alla responsabilità delle persone. Un semplice esempio merita molta notazione matematica, quindi consideriamo il seguente elemento (proveniente dal questionario sulla qualità della vita correlata alla salute EORTC QLQ-C30 ):

Ti sei preoccupato?

che è codificato su una scala di quattro punti, che va da "Niente affatto" a "Molto". I punteggi grezzi vengono calcolati assegnando un punteggio da 1 a 4. I punteggi sugli oggetti appartenenti alla stessa scala possono quindi essere sommati per produrre un cosiddetto punteggio scala, che indica il proprio rango sul costrutto sottostante (qui, un componente di salute mentale ). Tali punteggi di scala sommati sono molto pratici a causa della facilità di punteggio (per il medico o l'infermiere), ma non sono altro che una scala discreta (ordinata).

Possiamo anche considerare che la probabilità di approvare una determinata categoria di risposta obbedisce a una sorta di modello logistico, come descritto nel tutorial di Partchev, di cui sopra. Fondamentalmente, l'idea è quella di una sorta di modello di soglia (che porta a una formulazione equivalente in termini di modelli di probabilità proporzionali o cumulativi) e modelliamo le probabilità di essere in una categoria di risposta piuttosto che la precedente o le probabilità di segnare sopra un una determinata categoria, a seconda della posizione dei soggetti sul tratto latente. Inoltre, possiamo imporre che le categorie di risposta siano equamente distanziate sulla scala latente (questo è il modello della scala di valutazione) - che è il modo in cui lo facciamo assegnando punteggi numerici spaziati regolarmente - oppure no (questo è il modello di credito parziale) .

Chiaramente, non stiamo aggiungendo molto alla teoria del test classico, in cui le variabili ordinali sono trattate come valori numerici. Tuttavia, introduciamo un modello probabilistico, in cui assumiamo una scala continua (con proprietà intervallo) e in cui è possibile tenere conto di errori specifici di misurazione e possiamo collegare questi punteggi fattoriali in qualsiasi modello di regressione.

Riferimenti

  1. SS Stevens. Sulla teoria delle scale di misura. Scienza , 103 : 677-680, 1946.
  2. χ2
  3. J Nunnally e I Bernstein. Teoria psicometrica . McGraw-Hill, 1994
  4. Alan Agresti. Analisi categorica dei dati . Wiley, 1990.
  5. CR Rao e S Sinharay, editori. Manuale di statistica, vol. 26: Psicometria . Elsevier Science BV, Paesi Bassi, 2007.
  6. A Boomsma, MAJ van Duijn e TAB Snijders. Saggi sulla teoria della risposta agli oggetti . Springer, 2001.
  7. D Thissen e L Steinberg. Una tassonomia dei modelli di risposta degli oggetti. Psychometrika , 51 (4) : 567-577, 1986.
  8. P Mair e R Hatzinger. Estesa Rasch Modeling: Il Pacchetto ERM per l'applicazione di modelli IRT in R . Journal of Statistical Software , 20 (9) , 2007.

19

Se ci sono solo due categorie, ha senso trasformarle in (0,1). In effetti, questo è comunemente fatto dove la variabile fittizia risultante viene utilizzata nei modelli di regressione.

Se ci sono più di due categorie, penso che abbia senso solo se i dati sono ordinali, e quindi solo in circostanze molto specifiche. Ad esempio, se sto facendo regressione e adattando una funzione non lineare non parametrica alla variabile ordinale-cum-numerica, penso che vada bene. Ma se uso la regressione lineare, sto facendo ipotesi molto forti sulla differenza relativa tra valori consecutivi della variabile ordinale e di solito sono riluttante a farlo.


1
"[T] gallina Sto formulando ipotesi molto forti sulla differenza relativa tra valori consecutivi della variabile ordinale." Penso che questo sia il punto chiave, davvero. vale a dire quanto si può sostenere che la differenza tra i gruppi 1 e 2 è paragonabile a quella tra 2 e 3?
Freya Harrison,

Penso che dovresti fare alcune ipotesi su come dovrebbe essere distribuita la variabile continua e quindi provare ad adattare questo "psudoistogramma" di ciascuna frequenza variabile categorica (intendo trovare larghezze di bin che lo trasformeranno in un istogramma adattato). Tuttavia, non sono un esperto in questo campo, è un'idea veloce e sporca.

Riformare le categorie binarie come {0,1} ha senso, ma trasformarlo in un intervallo continuo [0,1] sembra un po 'un salto. Sul fronte più ampio, sono totalmente d'accordo con la tua riluttanza a ponderare gli ordinali allo stesso modo, a meno che non ci siano potenti argomenti dal modello.
walkytalky,

18

È pratica comune trattare le variabili categoriali ordinate con molte categorie come continue. Esempi di questo:

  • Numero di articoli corretti su un test di 100 articoli
  • Una scala psicologica sommata (ad esempio, che è la media di 10 elementi ciascuno su una scala di cinque punti)

E "trattando come continuo" intendo includere la variabile in un modello che assume una variabile casuale continua (ad esempio, come variabile dipendente in una regressione lineare). Suppongo che il problema sia quanti punti di scala sono necessari affinché questo sia un presupposto semplificativo ragionevole.

Alcuni altri pensieri:

  • Le correlazioni policoriche tentano di modellare la relazione tra due variabili ordinali in termini di variabili continue latenti assunte.
  • Il ridimensionamento ottimale consente di sviluppare modelli in cui il ridimensionamento di una variabile categoriale è sviluppato in modo guidato dai dati, nel rispetto di tutti i vincoli di scala imposti (ad es. Ordinalità). Per una buona introduzione vedi De Leeuw e Mair (2009)

Riferimenti

  • De Leeuw, J., & Mair, P. (2009). Metodi Gifi per un ridimensionamento ottimale in R: i pacchetti homals. Journal of Statistical Software, di prossima pubblicazione, 1-30. PDF

7

Un esempio molto semplice spesso trascurato che dovrebbe risiedere nell'esperienza di molti lettori riguarda i voti o i voti assegnati al lavoro accademico. Spesso i voti per i singoli incarichi sono essenzialmente misurazioni ordinali basate sul giudizio, anche quando, per convenzione, vengono assegnati come (diciamo) voti percentuali o voti su una scala con massimo 5 (possibilmente anche con punti decimali). Cioè, un insegnante può leggere un saggio o una tesi o una tesi o un documento e decidere che merita il 42%, o 4, o qualsiasi altra cosa. Anche quando i segni si basano su uno schema di valutazione dettagliato, la scala è alla radice ad una certa distanza da una scala di misurazione di intervallo o rapporto.

Ma poi molte istituzioni ritengono che se si dispone di abbastanza di questi voti o voti, è perfettamente ragionevole fare una media (media dei voti, ecc.) E persino analizzarli in modo più dettagliato. Quindi ad un certo punto le misure ordinali si trasformano in una scala sommaria che viene trattata come se fosse continua.

Gli intenditori dell'ironia noteranno che i corsi statistici in molti dipartimenti o scuole spesso insegnano che questo è nella migliore delle ipotesi dubbia e nella peggiore delle ipotesi, mentre è implementato come una procedura a livello universitario.


5

In un'analisi della classifica per frequenza, come nel caso di un grafico di Pareto e dei valori associati (ad es. Quante categorie costituiscono l'80% superiore dei guasti del prodotto)


5
Punto importante e può essere esteso: molti modelli per i dati ordinali dipendono dall'idea che non possono essere modellati i dati ordinali ma le loro probabilità cumulative.
Nick Cox,

4

Ho intenzione di fare la tesi che il trattamento di una variabile veramente categorica, non ordinali come può continuo a volte ha senso.

Se si stanno costruendo alberi decisionali basati su grandi set di dati, potrebbe essere costoso in termini di potenza di elaborazione e memoria convertire le variabili categoriali in variabili fittizie. Inoltre, alcuni modelli (ad es. randomForestIn R) non sono in grado di gestire variabili categoriali con molti livelli.

In questi casi, un modello basato su alberi dovrebbe essere in grado di identificare categorie estremamente importanti, ANCHE SE sono codificate come variabili continue. Un esempio inventato:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y è una variabile continua, a è una variabile continua e b è una variabile categoriale. Tuttavia, in dat1b è trattato come continuo.

Adattando un albero decisionale a questi 2 set di dati, troviamo che dat1è leggermente peggio di dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Se guardi i 2 modelli, scoprirai che sono molto simili, ma model1 perde l'importanza di b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Tuttavia, model1 viene eseguito in circa 1/10 del tempo di model2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Ovviamente puoi modificare i parametri del problema per trovare situazioni in cui le dat2prestazioni sono di gran lunga superiori dat1o dat1leggermente superiori dat2.

Non sto sostenendo in generale il trattamento di variabili categoriche come continue, ma ho riscontrato situazioni in cui ciò ha notevolmente ridotto il tempo necessario per adattarsi ai miei modelli, senza ridurne la precisione predittiva.


3

Un bel riassunto di questo argomento può essere trovato qui:

mijkerhemtulla.socsci.uva.nl PDF

"Quando le variabili categoriali possono essere trattate come continue? Un confronto tra solidi metodi di stima SEM continui e categorici in condizioni non ottimali."

Mijke Rhemtulla, Patricia É. Brosseau-Liard e Victoria Savalei

Esaminano circa 60 pagine di metodi per farlo e forniscono spunti su quando è utile fare, quale approccio adottare e quali sono i punti di forza e di debolezza di ogni approccio per adattarsi alla tua situazione specifica. Non li coprono tutti (come sto imparando sembra che ci sia una quantità illimitata), ma quelli che coprono coprono bene.


2

C'è un altro caso in cui ha senso: quando i dati vengono campionati da dati continui (ad esempio attraverso un convertitore da analogico a digitale). Per strumenti più vecchi gli ADC sarebbero spesso a 10 bit, fornendo dati ordinali di categoria nominale 1024, ma per la maggior parte degli scopi possono essere trattati come reali (anche se ci saranno alcuni artefatti per valori vicini alla fascia bassa della scala). Oggi gli ADC sono più comunemente a 16 o 24 bit. Quando stai parlando di "categorie" 65536 o 16777216, non hai davvero problemi a trattare i dati come continui.


Concordo fermamente con la tua linea di fondo, ma probabilmente tali dati non sono mai stati ordinali per cominciare, solo discretizzati. Trattamenti scadenti del rapporto intervallo ordinale nominale sono da biasimare qui per non aver spesso indicato che l'ordinale implica discreto, ma non viceversa. Un conteggio è ordinale, ma è anche intervallo e rapporto.
Nick Cox,

@Nick Ordinal implica discreto? Non necessariamente. Le misure continue possono essere ordinali. Ad esempio, variabili fisiologiche come SPG o frequenza cardiaca sono continue, ma come misure di variabili psicologiche come ansia o eccitazione sono solo ordinali. La nozione di intervallo ordinale vs intervallo si riferisce in realtà alla linearità della funzione che collega la misura a ciò che si intende misurare.
Ray Koopman,

Questa è un'osservazione interessante, ma una volta che entri in quel territorio non vedo come classificare la frequenza cardiaca senza prove indipendenti di cosa sia realmente l'ansia e alla fine la maggior parte delle variabili considerate come proxy non sono classificabili. Accetteresti di rifiutare di utilizzare i metodi per i dati di intervallo o rapporto ogni volta che passi a considerare la scala di misurazione solo come ordinale? Non penso che i dati si comportino diversamente a causa di ciò che si intende fare con loro; questo è il nocciolo del problema per me.
Nick Cox,

1
@Nick La domanda è se la funzione che mette in relazione il valore misurato con il valore "vero" è sufficientemente vicina a lineare che trattandolo come tale non porterà a conclusioni sostanziali errate, o deve essere trattato come solo monotonico. Di solito ci sono pochi o nessun dato su cui basare la decisione; sarà quasi sempre una richiesta di giudizio, sulla quale le persone intelligenti informate potrebbero dover essere in disaccordo.
Ray Koopman,

1
Penso che la solita enfasi nelle discussioni sulle scale di misura nelle statistiche sia sulle proprietà matematiche delle variabili e quali siano le operazioni matematiche legittime per ognuna. È abbastanza controverso. Preoccupazioni scientifiche sul fatto che qualcosa misuri ciò che si suppone che io accetti prontamente di essere di vitale importanza, ma considero un'area di dibattito piuttosto diversa.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.