Questa risposta discuterà possibili modelli da una prospettiva di misurazione , in cui ci viene data una serie di variabili correlate (manifest) correlate, o misure, la cui varianza condivisa si presume per misurare un costrutto ben identificato ma non direttamente osservabile (generalmente, in un riflesso modo), che verrà considerata come una variabile latente . Se non hai familiarità con il modello di misurazione del tratto latente, consiglierei i seguenti due articoli: L'attacco degli psicometrici , di Denny Borsbooom e Modellazione delle variabili latenti: un sondaggio , di Anders Skrondal e Sophia Rabe-Hesketh. Farò prima una leggera digressione con indicatori binari prima di occuparmi di elementi con più categorie di risposta.
Un modo per trasformare i dati a livello ordinale in scala di intervallo è utilizzare un qualche tipo di modello di risposta dell'oggetto . Un esempio ben noto è il modello di Rasch , che estende l'idea del modello di test parallelo dalla teoria dei test classica per far fronte agli oggetti binariattraverso un modello lineare generalizzato (con logit link) ad effetto misto (in alcune delle implementazioni software "moderne"), in cui la probabilità di approvare un determinato oggetto è una funzione di "difficoltà dell'oggetto" e "abilità della persona" (supponendo che non ci sia interazione tra la propria posizione sul tratto latente da misurare e la posizione dell'oggetto sulla stessa scala di logit - che potrebbe essere catturata attraverso un ulteriore parametro di discriminazione dell'oggetto, o interazione con caratteristiche specifiche individuali - che si chiama funzionamento differenziale dell'articolo ). Si presume che il costrutto sottostante sia unidimensionale, e la logica del modello di Rasch è solo che il rispondente ha un certo "ammontare del costrutto" - parliamo della responsabilità del soggetto (la sua "abilità"),θ , come qualsiasi oggetto che definisce questo costrutto (la loro "difficoltà"). Ciò che interessa è la differenza tra la posizione del rispondente e la posizione dell'articolo sulla scala di misurazione, . Per fare un esempio concreto, considera la seguente domanda: "Ho trovato difficile concentrarmi su qualcosa di diverso dalla mia ansia" (sì / no).θ
N= 766α = 0,971[ 0.967 ; 0.975 ]). Inizialmente, sono state proposte cinque categorie di risposta (1 = "Mai", 2 = "Raramente", 3 = "A volte", 4 = "Spesso" e 5 = "Sempre") per ciascun elemento. Considereremo qui solo le risposte con punteggio binario.
(Qui, le risposte agli oggetti di tipo Likert sono state ricodificate come risposte binarie (1/2 = 0, 3-5 = 1) e riteniamo che ogni articolo sia ugualmente discriminante tra gli individui, quindi il parallelismo tra le pendenze della curva degli oggetti (Rasch modello).)
Come si può vedere, le persone situate a destra del X
Per gli articoli politomici con categorie ordinate, ci sono diverse opzioni: il modello di credito parziale , il modello di scala di rating o il modello di risposta classificato , per citarne solo alcuni che sono principalmente utilizzati nella ricerca applicata. I primi due appartengono alla cosiddetta "famiglia Rasch" dei modelli IRT e condividono le seguenti proprietà: (a) monotonia della funzione di probabilità di risposta (curva di risposta oggetto / categoria), (b) sufficienza del punteggio individuale totale (con latente parametro considerato fisso), (c) indipendenza locale che significa che le risposte agli oggetti sono indipendenti, subordinate al tratto latente e (d) assenza di funzionamento differenziale dell'articolo nel senso che, in base al tratto latente, le risposte sono indipendenti da variabili specifiche individuali esterne (ad es. sesso, età, etnia, SES).
Estendendo l'esempio precedente al caso in cui le cinque categorie di risposta sono effettivamente considerate, un paziente avrà una maggiore probabilità di scegliere la categoria di risposta da 3 a 5, rispetto a qualcuno campionato dalla popolazione generale, senza alcun antecedente di disturbi legati all'ansia. Rispetto alla modellazione della voce dicotomico sopra descritto, questi modelli considerano né cumulativo (es probabilità di risposta 3 vs 2 o meno) o soglia adiacente-categoria (probabilità di rispondere 3 vs 2), anch'esso discusso a Agresti categorica Analisi dei dati(capitolo 12). La principale differenza tra i modelli di cui sopra risiede nel modo in cui vengono gestite le transizioni da una categoria di risposta all'altra: il modello di credito parziale non assume che la differenza tra una determinata posizione di soglia e la media delle posizioni di soglia sul tratto latente sia uguale o uniforme tra gli articoli, contrariamente al modello di scala di valutazione. Un'altra sottile differenza tra questi modelli è che alcuni di essi (come la risposta non vincolata o il modello di credito parziale) consentono parametri di discriminazione ineguali tra gli articoli. Vedere Applicazione del modello di teoria della risposta degli articoli per la valutazione delle proprietà degli oggetti del questionario e della scala , da Reeve e Fayers, oppure Le basi della teoria degli oggetti , di Frank B. Baker.
Poiché nel caso precedente abbiamo discusso dell'interpretazione delle curve di probabilità di risposta per gli oggetti con dicotomia punteggi, diamo un'occhiata alle curve di risposta degli oggetti derivate da un modello di risposta classificato, evidenziando gli stessi oggetti target:
(Modello di risposta classificato non vincolato, che consente una disparità di discriminazione tra gli articoli.)
Qui, le seguenti osservazioni meritano alcune considerazioni:
- [ 2 ; 2.5 ] spesso ha avuto difficoltà a dormire") va da ca. Da 0,35 a 0,4; con "formidabile", tale probabilità va da meno di 0,1 a circa 0,25 (linea blu tratteggiata). Se si desidera discriminare tra due pazienti che mostrano segni di ansia, quest'ultimo elemento è più informativo.
- C'è uno spostamento complessivo, da sinistra a destra, tra l'oggetto che valuta la qualità del sonno e quelli che valutano condizioni più gravi, sebbene i disturbi del sonno non siano rari. Questo è previsto: dopo tutto, anche le persone nella popolazione generale potrebbero avere qualche difficoltà ad addormentarsi, indipendentemente dal loro stato di salute, e le persone gravemente depresse o ansiose potrebbero presentare tali problemi. Tuttavia, è improbabile che le "persone normali" (se ciò abbia mai avuto un significato) mostrino alcuni segni di disturbo di panico (la probabilità che scelgano la categoria di risposta più elevata è zero per le persone situate nell'intervallo intermedio o più del tratto latente, [ 0, 1]).
θ
Oltre ad essere considerato come veri e propri modelli di misurazione , ciò che rende attraenti i modelli di Rasch è che i punteggi di somma, come statistica sufficiente , possono essere usati come surrogati per i punteggi latenti. Inoltre, la proprietà di sufficienza implica prontamente la separabilità dei parametri del modello (persone e oggetti) (nel caso di oggetti politomici, non bisogna dimenticare che tutto si applica a livello della categoria di risposta dell'oggetto), quindi l'additività congiunta.
Una revisione bene della gerarchia del modello IRT, con l'attuazione R, è disponibile in Mair e Hatzinger di articolo pubblicato sul Journal of Statistical Software : estesa Rasch Modeling: Il Pacchetto ERM per l'applicazione di modelli IRT in R . Altri modelli includono modelli log-lineari , modelli non parametrici, come il modello Mokken o modelli grafici .
A parte R, non sono a conoscenza delle implementazioni di Excel, ma su questo thread sono stati proposti diversi pacchetti statistici: come iniziare ad applicare la teoria della risposta degli oggetti e quale software utilizzare?
Infine, se si desidera studiare le relazioni tra un insieme di elementi e una variabile di risposta senza ricorrere a un modello di misurazione, può essere interessante anche una qualche forma di quantizzazione variabile attraverso un ridimensionamento ottimale . Oltre alle implementazioni R discusse in quei thread, sono state proposte anche soluzioni SPSS su thread correlati .
Riferimenti
- Pilkonis, P., Choi, S., Reise, S., Stover, A. e Riley, W. et al. (2011). Banche di articoli per la misurazione del disagio emotivo dal sistema informativo di misurazione degli esiti riportato dal paziente (PROMIS): depressione, ansia e rabbia . Valutazione , 18 (3), 263-283.
- Choi, S., Gibbons, L. e Crane, P. (2011). lordif: un pacchetto R per rilevare il funzionamento degli oggetti differenziali usando la regressione logistica ordinale ibrida iterativa / Teoria della risposta degli oggetti e simulazioni monte carlo . Journal of Statistical Software , 39 (8).