Come iniziare ad applicare la teoria della risposta degli articoli e quale software utilizzare?


21

Contesto

Ho letto la teoria della risposta agli oggetti e la trovo affascinante. Credo di aver capito le basi, ma mi sono lasciato chiedendo come applicare le tecniche statistiche relative all'area. Di seguito sono riportati due articoli simili all'area in cui vorrei applicare ITR:

Il secondo è quello che vorrei davvero estendere a questo punto nel tempo.

Ho scaricato un programma gratuito chiamato jMetrik e sembra funzionare alla grande. Penso che potrebbe essere troppo semplice per quanto riguarda l'IRT, ma non sono sicuro.

So che il modo "migliore" implicherebbe probabilmente l'apprendimento di R; tuttavia, non so se posso risparmiare tempo per affrontare quella curva di apprendimento. Si noti che abbiamo alcuni finanziamenti per l'acquisto di software, ma da quello che vedo, non sembrano esserci grandi programmi IRT là fuori.

Domande

  • Cosa ne pensi dell'efficacia di jMetrik?
  • Come suggeriresti di andare avanti nell'applicazione dell'IRT?
  • Quali sono i migliori programmi per l'applicazione dell'IRT?
  • Qualcuno di voi usa l'IRT regolarmente? Se é cosi, come?

1
quale software usi attualmente?
StasK,

Sto usando jMetrik. Sembra abbastanza nuovo e ha fatto molte cose che mi interessano!
Behacad,

2
Funziona in modalità script? Se hai solo una GUI, i tuoi risultati saranno molto difficili da riprodurre. Una modalità di script è un must per qualsiasi software serio.
StasK,

Risposte:


22

Come buon inizio dell'IRT, consiglio sempre di leggere Una guida visiva alla teoria della risposta degli oggetti .

Un sondaggio sul software disponibile è disponibile su www.rasch.org .

Dalla mia esperienza, ho trovato i comandi Raschtest (e associati) Stata molto utili nella maggior parte dei casi in cui si è interessati ad adattare il modello a un parametro. Per un design più complesso, si può ricorrere a GLLAMM ; c'è un bell'esempio di lavoro basato sul libro di De Boeck e Wilson, Explanatory Item and Response Models (Springer, 2004).

A proposito di R in particolare, ci sono molti pacchetti che sono diventati disponibili negli ultimi cinque anni, ad esempio la Task View CRAN correlata . Molti di questi sono discussi in un numero speciale del Journal of Statistical Software (vol. 20, 2007). Come discusso in un'altra risposta, ltm ed eRm consentono di adattare un'ampia gamma di modelli IRT. Poiché si basano su un diverso metodo di stima --- hanno ltmutilizzato l'approccio marginale mentre eRmusano l'approccio condizionale --- la scelta dell'uno o dell'altro è principalmente una questione del modello che si desidera adattare (eRm non si adatta ai modelli a 2 o 3 parametri) e all'obiettivo di misurazione che segui: la stima condizionale dei parametri della persona ha alcune belle proprietà psicometriche mentre un approccio marginale ti consente di passare facilmente al modello a effetti misti, come discusso nei seguenti due articoli :

Ci sono anche alcune possibilità per adattarsi ai modelli Rasch usando i metodi MCMC, vedi ad esempio il pacchetto MCMCpack (o WinBUGS / JAGS , ma vedi Codice BUGS per Item Response Theory , JSS (2010) 36).

Non ho esperienza con SAS per la modellazione IRT, quindi lo lascerò a qualcuno che è più esperto nella programmazione SAS.

Altri software dedicati (utilizzati principalmente nella valutazione educativa) includono: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (non citando l'elenco già disponibile su wikipedia ). Nessuno è gratuito, ma per alcuni di essi viene proposta una versione dimostrativa limitata nel tempo. Ho trovato jMetrik molto limitato quando l'ho provato (un anno fa) e tutte le funzionalità sono già disponibili in R. Allo stesso modo, ConstructMap può essere tranquillamente sostituito da lme4 , come illustrato nel volantino collegato sopra. Vorrei anche menzionare mdltm(Multidimensional Discrete Latent Trait Models) per i modelli di miscela Rasch, di von Davier e coll., Che dovrebbe accompagnare il libroModelli rasch di distribuzione multivariata e di miscele (Springer, 2007).


Fantastico! Grazie per la risposta molto completa! Entrambe queste risposte mi aiuteranno bene, così come chiunque altro sia curioso di perseguire quest'area, ne sono sicuro. Ti suggerisco di dare di nuovo un'occhiata a jMetrik e forse di darmi i tuoi pensieri. Ha ora la modellazione Rasch, curve ICC, alcune curve IRT, equazioni IRT (modelli 1PT, 2PT, 3PT) e altro ancora.
Behacad,

Guarderò la versione aggiornata. Ma, onestamente, vale la pena ricordare ciò che @Stask ha detto se hai intenzione di fare qualcosa di serio oltre la stima dei parametri e il reporting visivo. Per avere un'idea di quello che voglio dire, sguardo Un'introduzione alla teoria psicometrica con applicazioni in R . (Copre più di quello che alcuni chiamano psicometria "moderna".)
chl

@chi - Ho ottenuto risultati molto diversi quando ho eseguito analisi IRT in R usando ltm rispetto a quando ho eseguito la stessa analisi in Mplus e poi in Multilog (mentre le analisi in Mplus e Multilog erano identiche). Ho provato a capire perché con l'autore di ltm, ma non ho ricevuto alcuna risposta. Hai avuto esperienze simili con risultati discrepanti da diversi pacchetti software?
Tormod,

ex5.5θp-βioio=1,...,Kp=1,...,nβio-θpche è modellato e il metodo di stima (probabilità marginale vs. condizionale) e per 2+ modelli di parametri se le soglie sono centrate o meno.
chl

@chi - scusa il ritardo nella risposta, non ho notato il tuo commento. Non so se questo è ancora rilevante, ma ho riscontrato differenze che variano da 0,184 a 1,429 per i parametri di discriminazione (a). Ad esempio, Mplus ha dato a = 5.084 mentre ltm ha dato lo stesso oggetto a = 3.655. Nel complesso, ltm ha dato a più piccole di mplus. (L'esecuzione delle stesse analisi in multilog ha dato a corrispondenti a a di Mplus). I b erano più simili.
Tormod,

8

Alla prima domanda, non ho informazioni su jMetrick.

Nell'applicazione dell'IRT, (come con qualsiasi altra procedura statistica) il primo passo è quello di usarlo con il maggior numero possibile di dati diversi. C'è una curva di apprendimento, ma credo che ne valga la pena.

Una caratteristica importante di IRT è la differenziazione tra modelli Rasch e modelli IRT. Sono stati sviluppati da persone diverse per scopi diversi. Detto questo, i modelli IRT sono un superset di modelli Rasch.

I modelli di Rasch sono modelli a parametro unico: presuppongono che tutti gli elementi di un questionario siano ugualmente predittivi del carattere latente.

I modelli IRT, tuttavia, sono due modelli di parametri che consentono alle domande di differire nella loro capacità di fornire informazioni sulla capacità dei partecipanti.

Inoltre, ci sono tre modelli di parametri che sono come i modelli IRT, tranne per il fatto che consentono un parametro di indagine per tenere conto della capacità dei partecipanti di ottenere la risposta giusta per caso (questo è più un problema di abilità piuttosto che test di personalità).

Inoltre, esiste un IRT multidimensionale che stima contemporaneamente più abilità latenti. Non ne so molto, ma è un'area che intendo approfondire.

Esiste anche una distinzione tra metodi IRT dicotomici e politomici. I modelli IRT dicotomici sono quelli utilizzati nei test di abilità, che hanno una risposta giusta e sbagliata. I modelli Polytomous IRT sono utilizzati nei test di personalità, in cui esistono risposte multiple, che sono ugualmente corrette (nel senso che non esiste una risposta corretta).

Personalmente uso R per la teoria della risposta dell'oggetto. Ci sono due pacchetti principali che ho usato, eRmche si adatta solo ai modelli Rasch eltm che si adatta ai modelli di teoria della risposta degli oggetti (modelli a due e tre parametri). Entrambi hanno funzionalità simili ed entrambi forniscono più routine per i modelli IRT dicotomici. Non so se R sia il "migliore" per IRT, non ha tutta la moltitudine di modelli IRT disponibili, ma è sicuramente il più estensibile, in quanto si possono programmare questi modelli relativamente facilmente.

Uso l'IRT quasi esclusivamente per i modelli politomici, in R. In genere inizio con metodi IRT non parametrici (forniti nel pacchetto mokken) per testare i presupposti, quindi procedo con un modello rasch, aggiungendo più complessità quanto basta per ottenere un buon adattamento.

Per IRT multidimensionale, c'è il pacchetto `mirt ', che fornisce questa funzionalità. Non l'ho usato, quindi non posso davvero commentare.

Se installi questi pacchetti in R e chiami la funzione 'vignette ("nomepacchetto")' allora dovresti ottenere alcune vignette utili (sicuramente per eRme mokken, forse per gli altri) che potrebbero rivelarti utili (a seconda del tuo livello di raffinatezza matematica).

Infine, ci sono una serie di buoni libri disponibili per i modelli rasch e irt. La teoria della risposta agli oggetti per gli psicologi viene spesso utilizzata (anche se non mi piaceva lo stile), e più in alto nella catena della sofisticazione tecnica, ci sono due libri di testo estremamente completi e utili: il Manuale della moderna teoria della risposta agli oggetti e Modelli di Rasch: Fondamenti, Recenti Sviluppi e applicazioni .

Spero che aiuti.


Grazie! Questo è molto apprezzato. Vorrei anche saperne di più sulle opzioni del software se qualcuno ha qualche conoscenza nella zona.
Behacad,

3

jMetrik è più potente di quanto si possa pensare. È progettato per attività operative in cui i ricercatori necessitano di più procedure in un unico quadro unificato. Attualmente è possibile stimare i parametri IRT per i modelli Rasch, credito parziale e scala di rating. Consente inoltre il collegamento in scala IRT tramite Stocking-Lord, Haebara e altri metodi. Poiché include un database integrato, l'output della stima IRT può essere utilizzato nel collegamento in scala senza la necessità di rimodellare i file di dati. Inoltre, tutto l'output può essere archiviato nel database per l'uso con altri metodi in jMetrik o programmi esterni come R.

Puoi anche eseguirlo con script anziché con la GUI. Ad esempio, il codice seguente (a) importerà i dati nel database, (b) assegnerà un punteggio agli elementi con una chiave di risposta, (c) stimerà i parametri del modello Rasch e (d) esporterà i dati come file CSV. È possibile utilizzare il file di output finale come input in R per ulteriori analisi, oppure è possibile utilizzare R per connettersi direttamente al database jMetrik e lavorare con i risultati.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

Il software è ancora nelle sue prime fasi di sviluppo. Attualmente sto aggiungendo l'analisi fattoriale esplorativa e modelli di risposta degli oggetti più avanzati. A differenza di molti altri programmi IRT, jMetrik è open source. tutte le procedure di misurazione utilizzano la libreria psicometrica attualmente disponibile su GitHub, https://github.com/meyerjp3/psychometrics . Chiunque sia interessato a contribuire è il benvenuto.


0

Hai un ampio elenco di domande qui, ma abbastanza rilevante per molti ricercatori!

Consiglio vivamente di andare avanti in IRT, ma solo se la tua situazione soddisfa i requisiti. Ad esempio, si adatta bene ai tipi di test che usi e, soprattutto, che hai le dimensioni del campione necessarie. Per dati dicotomici a scelta multipla, consiglio il modello 3PL (l'argomento Rasch di "misurazione oggettiva" è sorprendentemente poco convincente) e 500-1000 è generalmente la dimensione minima del campione. I dati dicotomici senza indovinare, come i sondaggi psicologici che hanno risposte S / N alle dichiarazioni, funzionano bene con la 2PL. Se si dispone di una scala di rating o di dati di credito parziali, esistono modelli politomici progettati specificamente per tali situazioni.

IMHO, il miglior programma per l'applicazione dell'IRT è Xcalibre. È relativamente facile da usare (semplice interfaccia grafica e alcuni tipi di batch da riga di comando se lo si desidera per qualche motivo) e produce output altamente leggibili (report di MS Word con tabelle e cifre estese). Sconsiglio di usare R per le ragioni opposte. Lo svantaggio, ovviamente, è che non è gratuito, ma tendi a ottenere ciò per cui paghi come si suol dire. Descrizione completa, output di esempio e una versione di prova gratuita sono disponibili all'indirizzo www.assess.com .


Vorresti approfondire il motivo per cui l'argomento sulla "misurazione oggettiva" sensu Rasch (o più correttamente la possibilità di confronti oggettivi specifici) è "sorprendentemente poco convincente"?
Momo,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.