Differenze di gruppo su un oggetto Likert a cinque punti


22

In seguito a questa domanda : immagina di voler verificare le differenze nella tendenza centrale tra due gruppi (ad esempio, maschi e femmine) su un oggetto Likert a 5 punti (ad esempio, soddisfazione per la vita: da insoddisfatto a soddisfatto). Penso che un test t sarebbe sufficientemente accurato per la maggior parte degli scopi, ma che un test bootstrap delle differenze tra i mezzi di gruppo fornirebbe spesso una stima più accurata degli intervalli di confidenza. Quale test statistico useresti?


2
Una domanda correlata: le persone usano spesso il test di Mann-Whitney non parametrico per questo tipo di dati. Dato che ci sono solo cinque possibili valori, ci saranno molti ranghi legati. Il test di Mann-Whitney si adatta ai ranghi legati, ma questa regolazione funziona quando c'è un numero enorme di legami?
Harvey Motulsky,

5
Potresti essere interessato a questo recente articolo pubblicato su PARE, Five-Point Likert Items: test t contro Mann-Whitney-Wilcoxon , j.mp/biLWrA .
chl

Non sono sicuro che anche il test chi-quadro sia appropriato, verifica se esiste una dipendenza tra i gruppi e gli elementi (diversa distribuzione tra i gruppi).
pe-pe-rry,

Risposte:


12

Clason & Dormody hanno discusso della questione dei test statistici per gli articoli Likert ( Analisi dei dati misurati dai singoli articoli di tipo Likert ). Penso che un test con bootstrap sia corretto quando le due distribuzioni sembrano simili (a forma di campana e varianza uguale). Tuttavia, sarebbe interessante anche un test per dati categorici (ad esempio trend o test di Fisher o regressione logistica ordinale) poiché consente di verificare la distribuzione della risposta tra le categorie di articoli, vedere il libro di Agresti sull'analisi dei dati categorici (capitolo 7 sui modelli Logit per risposte multinomiali ).

A parte questo, puoi immaginare situazioni in cui il test t o qualsiasi altro test non parametrico fallirebbe se la distribuzione della risposta fosse fortemente squilibrata tra i due gruppi. Ad esempio, se tutte le persone del gruppo A rispondono 1 o 5 (in proporzione uguale) mentre tutte le persone del gruppo B rispondono 3, allora si finisce con una media all'interno del gruppo identica e il test non è affatto significativo, anche se in questo caso l'ipotesi di omoscedasticità è ampiamente violata.


L'articolo di Clason e Dormody sembra buono. I tuoi commenti sulla distribuzione delle risposte sono interessanti da considerare. Concordo sul fatto che le differenze nelle distribuzioni potrebbero essere di interesse. Ma se tu fossi interessato solo a capire se i gruppi di popolazione fossero diversi, non importerebbe necessariamente quali distribuzioni abbiano dato origine a tale uguaglianza.
Jeromy Anglim,

In questo caso, stai assumendo che la tua scala di Likert (in altre parole, la differenza percepita tra, ad esempio, molto soddisfatto e "solo" soddisfatto) si comporti idealmente e sia percepito con lo stesso significato in entrambe le popolazioni. Quindi stai implicitamente assumendo che si tratti di una scala numerica, ma sono d'accordo che questo è spesso considerato come tale nella ricerca applicata, specialmente se i partecipanti provengono dallo stesso paese. Il mio punto era solo quello di enfatizzare la prospettiva categorica dell'analisi dei dati, come di solito si trova nella tradizione dell'analisi fattoriale, come nella mia risposta alla domanda n. 10.
chl

Suppongo che la media del campione che risponde a un elemento Likert sia generalmente un sommario significativo della posizione del gruppo sulla dimensione sottostante. È interessante pensare a quando il significato di un oggetto Likert varierebbe sistematicamente tra i gruppi. Naturalmente, questo problema si estende oltre i soli articoli Likert, probabilmente a qualsiasi procedura di misurazione soggettiva.
Jeromy Anglim,

8

A seconda della dimensione del set di dati in questione, un test di permutazione potrebbe essere preferibile a un bootstrap in quanto potrebbe essere in grado di fornire un test esatto dell'ipotesi (e un CI esatto).


4

IMHO non è possibile utilizzare un test t per bilance Likert. La scala di Likert è ordinale e "conosce" solo le relazioni di valori di una variabile: ad esempio "totalmente insoddisfatto" è peggio di "in qualche modo insoddisfatto". D'altra parte, un test t deve calcolare i mezzi e altro e quindi ha bisogno di dati di intervallo. Puoi mappare i punteggi della scala di Likert ai dati dell'intervallo ("totalmente insoddisfatto" è 1 e così via) ma nessuno garantisce che "totalmente insoddisfatto" sia alla stessa distanza da "in qualche modo insoddisfatto" come "in qualche modo insoddisfatto" è da "né né né". A proposito: qual è la differenza tra "totalmente insoddisfatto" e "in qualche modo insoddisfatto"? Quindi, alla fine, faresti un test t sui valori codificati dei tuoi dati ordinali, ma non ha alcun senso.


9
... eppure è comunemente fatto. Una cosa da sottolineare, e sì, questo è un po 'pedante, se stai usando un singolo oggetto di tipo Likert che non è una scala Likert. La differenza è significativa (anche se la domanda di chi parla parla di un oggetto Likert e l'ordinalità è un problema). Una scala Likert è una conseguenza della somma o della media di diversi elementi Likert. Questo approccio è stato sviluppato specificamente per compensare la misura in cui i dati ordinali erano effettivamente ordinali e rendere più ragionevole il loro trattamento come su una scala di intervallo.
Russellpierce,

3

Se ogni singolo punto del questionario è ordinale e non penso che questo punto possa essere contestato, dato che non c'è modo di sapere se la differenza quantitativa tra "fortemente d'accordo" e "d'accordo" è la stessa di quella tra " in forte disaccordo "e" in disaccordo ", allora perché la somma di tutte queste scale a livello ordinale produce un valore che condivide le proprietà dei dati a livello di intervallo vero?

Ad esempio, se stiamo interpretando i risultati di un inventario della depressione, non ha senso (almeno per me) dire che una persona con un punteggio di "20" è due volte più depressa di una persona con un punteggio di " 10" . Questo perché ogni elemento nel questionario non sta misurando le effettive differenze nei livelli di depressione (supponendo che la depressione sia un disordine organico, intenzionale e stabile) ma piuttosto la valutazione soggettiva della persona in accordo con una particolare affermazione. Quando è stato chiesto, "quanto depresso diresti che il tuo umore è su una scala da 1 a 4, 1 che è molto depresso e 4 che non è affatto rappresentato", come faccio a sapere che la valutazione soggettiva di 1 di un rispondente è la stessa di quella di un altro intervistato ? O come posso sapere se la differenza tra 4 e 3 è uguale a quella di 3 e 4 in termini di persona " livello attuale di depressione. Se non possiamo sapere nulla di tutto ciò, non ha senso trattare la somma di tutti questi elementi ordinali come dati a livello di intervallo. Anche se i dati formano una distribuzione normale, non penso che sia appropriato trattare le differenze tra i punteggi come dati a livello di intervallo se sono stati calcolati sommando tutte le risposte a un likert-items. Una normale distribuzione dei dati significa semplicemente che le risposte sono probabilmente rappresentative della popolazione più numerosa; ciò non implica che i valori ottenuti dagli inventari condividano importanti proprietà dei dati a livello di intervallo. Ritengo che sia opportuno trattare le differenze tra i punteggi come dati a livello di intervallo se sono stati calcolati sommando tutte le risposte a un likert-items. Una normale distribuzione dei dati significa semplicemente che le risposte sono probabilmente rappresentative della popolazione più numerosa; ciò non implica che i valori ottenuti dagli inventari condividano importanti proprietà dei dati a livello di intervallo. Ritengo che sia opportuno trattare le differenze tra i punteggi come dati a livello di intervallo se sono stati calcolati sommando tutte le risposte a un likert-items. Una normale distribuzione dei dati significa semplicemente che le risposte sono probabilmente rappresentative della popolazione più numerosa; ciò non implica che i valori ottenuti dagli inventari condividano importanti proprietà dei dati a livello di intervallo.

Dobbiamo stare attenti nelle scienze comportamentali su come usiamo la statistica per parlare alle variabili latenti che stiamo studiando, poiché poiché non esiste un modo diretto per misurare questi ipotetici costrutti, ci saranno problemi significativi quando tentiamo di quantificarli ai test parametrici. Ancora una volta, semplicemente perché abbiamo assegnato valori a un insieme di risposte non significa che le differenze tra questi valori siano significative.


1
Se sei felice di sommare i punteggi degli oggetti, hai già assunto un livello di misurazione più che ordinario. A rigor di termini, le misure ordinali non possono essere significativamente aggiunte o mediate (per inciso, Stevens ne è chiaro). Una volta fatto ciò, trattare i punteggi risultanti come dati a livello di intervallo è perfettamente ragionevole.
Gala,

0

Il modello proporzionale di odds ratio è meglio del test t per la scala degli oggetti Likert.


1
Vorresti spiegare le tue ragioni? Vedo come un tale modello potrebbe fornire un modello più preciso di risposte osservate. Tuttavia, nelle tipiche situazioni di ricerca pratica che ho visto, i ricercatori sono interessati a sapere se i due gruppi differiscono in termini di media (ad esempio, il gruppo di formazione ha riportato prestazioni più elevate rispetto al controllo; la soddisfazione degli studenti è stata superiore di un anno dopo ). Il modello di odds ratio proporzionale non testa questa domanda esattamente per quanto ne so.
Jeromy Anglim,

0

Proverò a spiegare il modello di odds ratio proporzionale in questo contesto poiché è stato suggerito e indicato in almeno 2 risposte a questa domanda.

Il test del punteggio di un modello di quote proporzionale equivale al test di somma dei ranghi di Wilcoxon.

Più precisamente, la statistica del test di punteggio per nessun effetto di una singola covariata dicotomica in un modello di regressione logistica cumulativa di probabilità proporzionale (McCullagh 1980) per l'esito ordinale è stata dimostrata uguale alla statistica del test di somma di rango di Wilcoxon. (Prova in un'estensione del test Rank-Sum di Wilcoxon per dati di sondaggi campione complessi .)

Proprio come il test di somma dei ranghi di Wilcoxon, questo test rileva se due campioni sono stati prelevati da diverse distribuzioni, indipendentemente dai valori previsti.

Questo test non è valido se si desidera solo rilevare se due campioni sono stati estratti da distribuzioni con valori previsti diversi, proprio come il test di somma dei ranghi di Wilcoxon.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.