Si può validamente ridurre il numero di oggetti in una scala Likert pubblicata?


11

[modifiche fatte in risposta al feedback- grazie :-)]

Doh! Altre modifiche! Scusate!

Ciao-

Sto facendo una raccolta di dati piuttosto approssimativa e pronta con un sondaggio inviato al personale sanitario utilizzando una scala pubblicata sul morale e altri problemi simili.

L'unica cosa è che la scala è piuttosto lunga con tutte le altre cose nel sondaggio e vorrei ridurne le dimensioni tagliando a metà ogni sottoscala e usando solo metà degli articoli. La mia intuizione è che questo va bene, poiché le sottoscale sono interconnesse e, sebbene non sia l'ideale per la ricerca standard di pubblicazione, va bene solo per un po 'di accertamento dei fatti all'interno dell'organizzazione.

Mi chiedevo se qualcuno avesse qualche idea sulla validità di farlo, insidie ​​o qualcos'altro. In particolare, i riferimenti vengono ricevuti con gratitudine perché i miei colleghi avranno bisogno di alcuni convincenti!

Mille grazie, Chris B.

edits-

Sì, è una scala validata con proprietà psicometriche note.

È unidimensionale e ha sottoscale, se questo è il modo giusto per dirlo.

Lavorerò a livello di sottoscala e totale, non dell'oggetto,.

30 articoli, probabilmente circa 40-60 individui.

Saluti!


È una scala validata, con proprietà psicometriche note?
chl

Ciao Chris, quindi non stai riducendo il numero di oggetti in una scala likert, ma piuttosto usando meno domande / oggetti (che sono misurati su una scala likert). In generale sembra che dipenda dalle tue misure. È possibile verificare la correlazione degli elementi che si intende eliminare con quelli che si stanno conservando. In realtà è interessante come misurare quanto rimuovere - potrebbe valere la pena riformulare la domanda in questo modo (se non lo farai, potrei farlo in seguito). Bella domanda :)
Tal Galili,

Tre domande aggiuntive: (1) Questa è una scala unidimensionale o ci sono diverse sottoscale, (2) Qual è il numero di individui e il numero di oggetti e (3) Lavori a livello degli oggetti, o in totale? o punteggio medio?
chl

Risposte:


11

Anche se mancano ancora alcune informazioni (n. Individui e articoli per sottoscala), ecco alcuni suggerimenti generali sulla riduzione della scala. Inoltre, dal momento che stai lavorando a livello di questionario, non vedo perché la sua lunghezza sia così importante (dopotutto, fornirai solo statistiche riassuntive, come punteggi totali o medi).

Presumo che (a) hai una serie di oggetti K che misurano un costrutto correlato al morale, (b) la tua scala "unidimensionale" è un fattore di secondo ordine che potrebbe essere suddiviso in diverse sfaccettature, (c) che vorresti riduci la scala a k <K articoli in modo da riassumere con sufficiente precisione i punteggi della scala totale dei soggetti preservando la validità del contenuto della scala.

Validità del contenuto / costrutto di questa scala validata: il numero di elementi è stato sicuramente scelto in modo da riflettere meglio il costrutto di interesse. Abbreviando il questionario, si sta effettivamente riducendo la copertura del costrutto. Sarebbe bene verificare che la struttura del fattore rimanga la stessa quando si considera solo la metà degli elementi (il che potrebbe anche influire sul modo in cui li si seleziona, dopo tutto). Questo può essere fatto usando le tradizionali tecniche FA. Hai la responsabilità di interpretare la scala in uno spirito simile a quello degli autori.

Informazioni sull'affidabilità dei punteggi : sebbene si tratti di una misura dipendente dal campione, l'affidabilità dei punteggi diminuisce quando si riduce il numero di elementi (vedere la formula di Spearman-Brown ); un altro modo di vedere è che l'errore standard di misurazione (SEM) aumenterà, ma vedi Un modulo didattico NCME sull'errore standard di misurazione , di Leo M Harvill. Inutile dire che si applica a tutti gli indicatori che dipendono dal numero di elementi (ad esempio, l'alfa di Cronbach che può essere utilizzata per stimare una forma di affidabilità, vale a dire la coerenza interna). Si spera che ciò non abbia alcun impatto su confronti tra gruppi basati su punteggi grezzi.

Quindi, i miei consigli (il modo più semplice) sarebbero:

  1. Seleziona i tuoi articoli in modo da massimizzare la copertura del costrutto; verificare la dimensionalità con FA e la copertura con distribuzioni di risposte univariate;
  2. Confrontare le correlazioni interitem medie con quelle precedentemente riportate;
  3. Calcola la coerenza interna per il fondo scala e i compositi; verificare che siano in accordo con le statistiche pubblicate sulla scala originale (non è necessario testare nulla, si tratta di misure dipendenti dal campione);
  4. Prova le correlazioni lineari (o policicoriche o di rango) tra punteggi originali e (sub) ridotti, per assicurarti che siano comparabili (cioè che le posizioni individuali sul tratto latente non variano in larga misura, come obiettato attraverso i punteggi grezzi );
  5. Se si dispone di una variabile esterna specifica del soggetto (ad es. Sesso, età o meglio una misura correlata al morale), confrontare la validità del gruppo noto tra le due forme.

Il modo più difficile sarebbe fare affidamento sulla teoria della risposta degli oggetti per selezionare quegli oggetti che contengono il massimo di informazioni sulla caratteristica latente: la riduzione della scala dei tratti è in realtà una delle sue migliori applicazioni. I modelli per articoli politomici sono stati parzialmente descritti in questo thread, Convalida dei questionari .

Aggiorna dopo il tuo secondo aggiornamento

  1. Dimentica qualsiasi modello IRT per oggetti politomici con così pochi soggetti.
  2. L'analisi fattoriale soffrirà anche di una dimensione del campione così bassa; otterrai stime di caricamento dei fattori inaffidabili.
  3. 30 articoli divisi per 2 = 15 articoli (è facile farsi un'idea dell'aumento del SEM corrispondente per il punteggio totale), ma peggiorerà definitivamente se si considerano le sottoscale (questa era in realtà la mia seconda domanda - No. per sottoscala, se presente)

8

Suppongo che non ci sia una risposta chiara "sì / no" alla tua domanda. Se si eliminano arbitrariamente gli oggetti dalle scale secondarie per creare una forma breve del questionario originale, si perde la convalida psicometrica della forma lunga. Le cose che possono cambiare sono la struttura fattoriale del questionario, l'affidabilità delle sotto-scale, le correlazioni totale-articolo, ecc. (Noterai che sono abituato al pensiero della teoria dei test classici, non all'IRT). Inoltre, non è possibile utilizzare alcuna standardizzazione del questionario originale. Ecco perché brevi forme di questionari consolidati devono essere sottoposti a una fase di convalida separata.

A seconda delle esigenze, tuttavia, non tutto è perduto. Potresti non aver bisogno di standardizzazione perché potresti voler solo confrontare i risultati all'interno del tuo campione senza dare giudizi "assoluti" rispetto a una popolazione di riferimento. IMHO, sarebbe un vantaggio se tu avessi la possibilità di convalidare il modulo breve con il modulo originale almeno per un sottocampione del tuo gruppo. Ciò può consentire di vedere se i risultati sono simili.

In generale, tuttavia, i risultati di un questionario possono essere sorprendentemente sensibili alla sua composizione. Le persone non compilano roboticamente i questionari ma fanno ogni sorta di asserzioni tacite e inferenze cognitive: "di cosa si tratta?", "Che cosa mi aspetto di riferire qui?", "Cosa vogliono veramente sapere?". Ciò può essere fortemente influenzato dal contesto dato degli elementi, cfr. Schwarz, N. 1996. Cognizione e comunicazione: pregiudizi giudiziari, metodi di ricerca e logica della conversazione. Mahwah, NJ: Lawrence Erlbaum.


4

Aggiungerei un punto.

Essere consapevoli della distinzione tra gruppo (ad es. Confronto di medie di gruppo nel tempo) e misurazione del livello individuale (ad es. Correlazione dei punteggi sulla scala con altre scale a livello individuale).

L'affidabilità si applica in modo diverso ai due livelli. Forse la seguente semplificazione aiuta:

  • L'affidabilità della misurazione a livello di gruppo è fortemente influenzata dal numero di partecipanti e dal grado in cui esiste una reale variabilità a livello di gruppo.
  • L'affidabilità della misurazione a livello individuale è fortemente influenzata dal numero di articoli che possiedi e dal grado in cui le persone variano veramente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.