Quali statistiche riassuntive usare con variabili categoriche o qualitative?


18

Solo per chiarire, quando intendo le statistiche riassuntive, mi riferisco agli intervalli medi, quartili mediani, varianza, deviazione standard.

Quando si riassume un univariato che è categorico o qualitativo , considerando sia i casi nominali che quelli ordinali , ha senso trovare la sua media, mediana, intervalli di quartile, varianza e deviazione standard?

In tal caso, è diverso rispetto a se si riepilogasse una variabile continua, e come?


2
Riesco a malapena a vedere alcuna differenza tra variabile categorica e qualitativa, tranne quella della terminologia. Comunque, sarebbe molto difficile calcolare qualcosa come media o SD su una variabile nominale (ad esempio, il colore dei capelli). Forse stai pensando a variabili categoriali con livelli ordinati?
chl

No, se i dati categorici hanno un ordine o livelli classificati, si dice che siano ordinali secondo questo sito Web: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] e dice "Puoi contare e ordina, ma non misura, i dati ordinali "
chutsu,

Ma mi sbaglio?
Chutsu,

Risposte:


8

In generale, la risposta è no. Tuttavia, si potrebbe sostenere che è possibile prendere la mediana dei dati ordinali, ma ovviamente si avrà una categoria come mediana, non un numero. La mediana divide i dati equamente: metà sopra, metà sotto. I dati ordinali dipendono solo dall'ordine.

Inoltre, in alcuni casi, l'ordinalità può essere trasformata in dati approssimativi a livello di intervallo. Questo è vero quando i dati ordinali sono raggruppati (ad esempio, le domande sul reddito vengono spesso poste in questo modo). In questo caso, puoi trovare una mediana precisa e potresti essere in grado di approssimare gli altri valori, soprattutto se vengono specificati i limiti inferiore e superiore: puoi assumere una distribuzione (ad esempio uniforme) all'interno di ciascuna categoria. Un altro caso di dati ordinali che possono essere fatti intervallo è quando ai livelli vengono dati equivalenti numerici. Ad esempio: Mai (0%), a volte (10-30%), circa la metà del tempo (50%) e così via.

Per (ancora una volta) citare David Cox:

Non ci sono domande statistiche di routine, solo routine statistiche discutibili


1
Fornisci buone informazioni correlate ma penso che in risposta alla domanda chl, l'OP abbia chiarito che sta parlando di dati categorici che non sono ordinali. Quindi la tua risposta non è davvero una risposta, ma io non sono uno che darebbe un voto negativo. Ma penso che dovresti cambiarlo in un commento.
Michael R. Chernick,

1
No, non ridimensionerò la risposta poiché penso che abbia aggiunto un valore alla mia comprensione limitata. Avrei dovuto chiarire nella mia descrizione che sto prendendo in considerazione sia le statistiche di Riepilogo ordinali che nominali, quindi la colpa è mia.
Chutsu,

5

Come è stato accennato, le SD e i punti cardine non sono significativi per i dati categorici. I punti cardine (ad es. Mediana e quartili) possono essere significativi per i dati ordinali. Il tuo titolo chiede anche quali statistiche riassuntive dovrebbero essere usate per descrivere i dati categorici. È standard per caratterizzare i dati categorici in base a conteggi e percentuali. (Potresti anche voler includere un intervallo di confidenza del 95% attorno alle percentuali.) Ad esempio, se i tuoi dati fossero:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Puoi riassumerli in questo modo:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

Se si dispone di variabili nominali non esiste alcuna funzione di ordinamento o distanza. Quindi, come potresti definire una qualsiasi delle statistiche riassuntive che menzioni? Non penso che tu possa. I quartili e l'intervallo richiedono almeno l'ordinamento e i mezzi e la varianza richiedono dati numerici. Penso che i grafici a barre e il grafico a torta siano esempi tipici dei modi corretti per sintetizzare le variabili qualitative che non sono ordinali.


3
@PeterFlom Il mio punto non era quello di elencare tutte le possibili procedure grafiche per riassumere i dati qualitativi. Voglio davvero sottolineare che è davvero la proporzione che può essere confrontata e il modo in cui le proporzioni sono distribuite tra le categorie. Per riconoscere visivamente le differenze nelle proporzioni, penso che i grafici a barre siano più facili da visualizzare rispetto ai grafici a torta, ma sono solo due modi popolari per riassumere i dati categorici. Non voglio dire che sono i migliori in quanto non ho familiarità con tutti i metodi disponibili.
Michael R. Chernick,

7
Sono sicuramente popolari! Ma penso che sia parte della nostra responsabilità, in qualità di esperti del settore, rendere i grafici a torta meno popolari.
Peter Flom - Ripristina Monica

3
Cleveland mostrò, in primo luogo, che le persone sono peggio nel percepire la misurazione angolare rispetto alla distanza lineare. In secondo luogo, il fatto di cambiare i colori in un grafico a torta ha cambiato la percezione delle persone sulla dimensione delle fette. In terzo luogo, la rotazione del grafico a torta ha modificato le percezioni delle persone sulla dimensione delle sezioni. In quarto luogo, le persone hanno avuto problemi a ordinare le fette dal più grande al più piccolo a meno che non fossero di dimensioni molto diverse. I grafici a punti Cleveland evitano tutto ciò.
Peter Flom - Ripristina Monica

6
@Michael "Una tabella è quasi sempre migliore di un diagramma a torta stupido; l'unico disegno peggiore di un grafico a torta è molti di essi ... i grafici a torta non dovrebbero mai essere usati." - Tufte. "I dati che possono essere mostrati dai grafici a torta possono sempre essere mostrati da un diagramma a punti. ... negli anni 1920 una battaglia infuriò sulle pagine di JASA sui meriti relativi dei grafici a torta e dei grafici a barre divisi ... entrambi i campi perdono perché altri grafici hanno prestazioni molto migliori rispetto ai grafici a barre divisi o ai grafici a torta. "- Cleveland. Come sapete, Cleveland non è prescrittivo: è forte quanto riesce a ottenere qualsiasi cosa.
whuber

6
A proposito, @Michael, sono d'accordo con te e gli argomenti che stai facendo in questo thread (che trovo convincenti e ben presentati), ma come moderatore devo trasmettere forti obiezioni espresse dai membri della comunità riguardo al "tono della voce" stai adottando. Seguire l'etichetta del sito: attenersi all'argomento e non attaccare gli altri. Non scrivere nemmeno cose che potrebbero sembrare un attacco, anche per scherzo. Naturalmente la stessa ammonizione si estende a tutti.
whuber

2

La modalità funziona ancora! Non è una statistica riassuntiva importante? (Qual è la categoria più comune?) Penso che il suggerimento mediano abbia poco o nessun valore come statistica, ma la modalità lo fa.

Anche contare distinti sarebbe prezioso. (Quante categorie hai?)

È possibile creare rapporti come (categoria più comune) / (categoria meno comune) o (categoria più comune n. 1) / (categoria più comune n. 2). Anche (categoria più comune) / (tutte le altre categorie), come la regola 80/20.

Puoi anche assegnare numeri alle tue categorie e impazzire con tutte le solite statistiche. AA = 1, Hisp = 2, ecc. Ora puoi calcolare media, mediana, modalità, SD, ecc.


0

Apprezzo le altre risposte, ma mi sembra che un background topologico darebbe una struttura tanto necessaria alle risposte.

definizioni

Cominciamo con la definizione delle definizioni dei domini:

  • la variabile categoriale è una il cui dominio contiene elementi, ma non esiste alcuna relazione nota tra loro (quindi abbiamo solo categorie). Gli esempi dipendono dal contesto, ma direi nel caso generale, è difficile confrontare i giorni della settimana: è lunedì prima di domenica, in caso affermativo, che dire del prossimo lunedì? Forse un esempio più semplice, ma meno utilizzato sono i capi di abbigliamento: senza fornire un contesto che avrebbe un senso per un ordine, è difficile dire se i pantaloni vengono prima dei maglioni o viceversa.

  • la variabile ordinale è una che ha un ordine totale definito sul dominio, ovvero per ogni due elementi del dominio, possiamo dire che o sono identici o uno è più grande dell'altro. Una scala di Likert è un buon esempio di definizione di una variabile ordinale. "un po 'd'accordo" è decisamente più vicino a "fortemente d'accordo" che a "non essere d'accordo".

  • la variabile intervallo è una, il cui dominio definisce le distanze tra gli elementi (una metrica ), permettendoci così di definire gli intervalli.

Esempi di dominio

Come set più comune che utilizziamo, i numeri naturali e reali hanno un ordine e metriche totali standard. Questo è il motivo per cui dobbiamo stare attenti quando assegniamo i numeri alle nostre categorie. Se non stiamo attenti a ignorare l'ordine e la distanza, praticamente convertiamo i nostri dati categorici in dati di intervallo. Quando si utilizza un algoritmo di apprendimento automatico senza sapere come funziona, si rischia di fare involontariamente tali assunzioni, potenzialmente invalidando i propri risultati. Ad esempio, gli algoritmi di deep learning più popolari funzionano con numeri reali sfruttando il loro intervallo e le proprietà continue. Un altro esempio, pensa alle scale di Likert a 5 punti e al modo in cui l'analisi che applichiamo su di esse presuppone che la distanza tra fortemente d'accordo e d'accordoè lo stesso che non sono d'accordo e né accordo né in disaccordo . Difficile sostenere una simile relazione.

Un altro set con cui lavoriamo spesso sono le stringhe . Esistono numerose metriche di somiglianza delle stringhe che risultano utili quando si lavora con le stringhe. Tuttavia, questi non sono sempre utili. Ad esempio, per gli indirizzi, John Smith Street e John Smith Road sono abbastanza vicini in termini di somiglianza delle stringhe, ma ovviamente rappresentano due entità diverse che potrebbero essere a miglia di distanza.

Statistiche riassuntive

Ok, ora vediamo come alcune statistiche riassuntive si adattano a questo. Poiché la statistica funziona con i numeri, le sue funzioni sono ben definite su intervalli. Ma vediamo esempi su se / come possiamo generalizzarli a dati categorici o ordinali:

  • modalità - sia quando si lavora con dati categorici che ordinali, possiamo dire quale elemento viene utilizzato più frequentemente. Quindi abbiamo questo. Quindi possiamo anche derivare tutte le altre misure che @Maddenker elenca nella loro risposta. L'intervallo di confidenza di @ gung potrebbe anche essere utile.
  • mediana - come dice @peter-flom, finché hai un ordine, puoi derivare la tua mediana.
  • media , ma anche deviazione standard, percentili, ecc. - li ottieni solo con i dati di intervallo, a causa della necessità di una metrica della distanza.

Esempio di contestualità dei dati

Alla fine, voglio sottolineare ancora una volta che l'ordine e le metriche definite sui dati sono molto contestuali. Ormai dovrebbe essere ovvio, ma lascia che ti dia un ultimo esempio: quando lavoriamo con posizioni geografiche, abbiamo molti modi diversi di affrontarli:

  • se siamo interessati alla distanza tra loro, possiamo lavorare con la loro geolocalizzazione, che sostanzialmente ci dà uno spazio numerico bidimensionale, quindi intervallo.
  • se siamo interessati alla loro parte della relazione, possiamo definire un ordine totale (ad es. una strada fa parte di una città, due città sono uguali, un continente contiene un paese)
  • se siamo interessati a sapere se due stringhe rappresentano lo stesso indirizzo, potremmo lavorare con una certa distanza di stringa che tollererebbe gli errori di ortografia e lo scambio di posizioni delle parole, ma assicurandoci di distinguere termini e nomi diversi. Questa non è una cosa facile, ma solo per fare il caso.
  • Ci sono molti altri casi d'uso che tutti noi incontriamo quotidianamente, dove nulla di tutto ciò ha senso. In alcuni di essi non c'è altro da fare che trattare gli indirizzi solo come categorie diverse, in altri si tratta di modellazione e preelaborazione dei dati molto intelligenti.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.