Come riassumere i dati categorici?


13

Ho avuto problemi con il seguente problema, si spera sia facile per gli statistici (sono un programmatore con una certa esposizione alle statistiche).

Devo riassumere le risposte a un sondaggio (per la gestione). Il sondaggio ha più di 100 domande, raggruppate in diverse aree (con circa 5-10 domande per area). Tutte le risposte sono categoriche (su scala ordinale, sono come "per niente", "raramente" ... "quotidianamente o più frequentemente").

Il management vorrebbe ottenere un riepilogo per ogni area e questo è il mio problema: come aggregare le risposte categoriche all'interno della domanda correlata? . Le domande sono troppe per creare un grafico o anche un diagramma reticolare per ogni area. Preferisco un approccio visivo, se possibile, rispetto a, diciamo, tabelle con numeri (purtroppo, non li leggeranno).

L'unica cosa che mi viene in mente è contare il numero di risposte in ciascuna area, quindi tracciare l'istogramma.

C'è qualcos'altro disponibile per i dati categorici?

Uso R, ma non sono sicuro che sia pertinente, penso che questa sia più una domanda di statistica generale.


Che ne dici di PCA / FA?
Riduresti le

questo potrebbe essere troppo, se il management chiede "come hai ottenuto i numeri aggregati?" vorranno una tecnica più semplice in modo che possano (sentirsi) capirla. Ahimè, il mondo reale :-( Grazie, però.
wishihadabettername

Risposte:


10

Devi davvero capire qual è la domanda a cui stai cercando di rispondere o a quale domanda è più interessata la direzione. Quindi puoi selezionare le domande del sondaggio che sono più rilevanti per il tuo problema.

Senza sapere nulla del tuo problema o set di dati, ecco alcune soluzioni generiche:

  • Rappresentano visivamente le risposte come cluster. Il mio preferito è usare i dendrogrammi o semplicemente disegnare su un asse xy (Google "cluster analysis r" e passare al primo risultato di statmethods.net)
  • Classifica le domande dalle risposte più grandi a quelle meno "quotidiane o più frequenti". Questo è un esempio che potrebbe non funzionare esattamente per te, ma forse ti ispirerà http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • Campi incrociati: se, ad esempio, hai una domanda "Quanto spesso arrivi tardi per lavoro?" e "Con quale frequenza usi Facebook?", attraversando le due domande incrociate puoi scoprire la percentuale di persone che raramente fanno entrambe le cose o che fanno entrambe le cose ogni giorno. )
  • Correlogrammi. Non ho alcuna esperienza con questi, ma l'ho visto anche sul sito Web statmethods.net. Fondamentalmente trovi quali domande hanno la più alta correlazione e quindi crei una tabella. Potresti trovare questo utile sebbene sembri un po '"occupato".

Lo segnerò come risposta; ci sono molti buoni suggerimenti in esso, quindi penserò come applicarli.
wishihadabettername


8

Le opzioni standard includono:

  • ottenere la media per gli oggetti all'interno di una scala (ad esempio, se la scala è da 1 a 5, la media sarà da 1 a 5)
  • convertendo ciascun elemento in una misura binaria (ad es. se item> = 3, quindi 1, altrimenti 0) e quindi prendendo la media di questa risposta binaria

Dato che si stanno aggregando elementi e grandi campioni di persone nell'organizzazione, entrambe le opzioni sopra (ovvero la media da 1 a 5 o la media della percentuale sopra un punto) saranno affidabili a livello organizzativo ( vedere qui per ulteriore discussione ). Pertanto, una delle opzioni di cui sopra comunica sostanzialmente le stesse informazioni.

In generale, non sarei preoccupato del fatto che gli articoli siano categorici. Quando crei le scale aggregando gli elementi e quindi aggregando il campione dei rispondenti, la scala sarà un'approssimazione vicina a una scala continua.

Il management può trovare una metrica più facile da interpretare. Quando ottengo i punteggi di qualità dell'insegnamento (ovvero, il punteggio di soddisfazione degli studenti medio di dire 100 studenti), è la media su una scala da 1 a 5 e va bene. Nel corso degli anni dopo aver visto i miei punteggi di anno in anno e anche vedere alcune norme per l'università, ho sviluppato un quadro di riferimento sul significato di valori diversi. Tuttavia, il management a volte preferisce pensare alla percentuale che approva un'affermazione o alla percentuale di risposte positive anche quando è in un certo senso la percentuale media.

La sfida principale è quella di fornire un quadro tangibile di riferimento per i punteggi. La direzione vorrà sapere cosa significano effettivamente i numeri . Ad esempio, se la risposta media per una scala è 4.2, cosa significa? È buono? È male? Va tutto bene?

Se si utilizza il sondaggio per più anni o in diverse organizzazioni, è possibile iniziare a sviluppare alcune norme. L'accesso alle norme è uno dei motivi per cui le organizzazioni ottengono spesso un fornitore di sondaggi esterno o utilizzano un sondaggio standard.

È inoltre possibile eseguire un'analisi fattoriale per verificare che l'assegnazione degli articoli alle bilance sia empiricamente giustificabile.

In termini di approccio visivo, è possibile avere una semplice linea o grafico a barre con il tipo di scala sull'asse xe il punteggio sull'asse y. Se si dispone di dati normativi, è possibile aggiungere anche quello.


1

Sì. Ritengo che il clustering sia un approccio molto efficace alla riduzione dei dati per ridurre i dati del sondaggio sia per la comprensione che per la presentazione della direzione.

L'analisi della classe latente (trattando le scale di risposta come ordinali) o i mezzi k (trattandoli come continui) può essere vista come una forma di compressione delle informazioni . Classificare gli intervistati nel loro segmento più probabile produce generalmente una variabile categoriale che ha spiegazioni intuitive quando profilati in termini di risposte.

È quindi possibile assegnare un nome ai segmenti e utilizzare tali variabili per l'analisi e la presentazione a livello di riepilogo.

Adatta un cluster per gruppi di elementi correlati (ad es. Sotto) o possibilmente tutti insieme.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

Uso spesso LatentGold, ma trovo che FASTCLUS in SAS sia un buon espediente.

Prima di farlo, ti consigliamo di adattare le risposte di ciascun individuo al loro uso della scala (controverso ma pragmatico). Alcune persone si appoggiano solo a un'estremità della scala, evitando il negativo o il positivo. Il clustering di risposte grezze tende in genere a dividere le persone per quel comportamento.

Standardizzare le risposte di ciascuno degli intervistati alla propria media e raggrupparsi su ciò espone spesso variabili che si muovono insieme in modi molto interessanti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.