Come calcolare la correlazione tra / all'interno di gruppi di variabili?


13

Ho una matrice di 1000 osservazioni e 50 variabili ciascuna misurata su una scala a 5 punti. Queste variabili sono organizzate in gruppi, ma non esiste un numero uguale di variabili in ciascun gruppo.

Vorrei calcolare due tipi di correlazioni:

  1. Correlazione all'interno di gruppi di variabili (tra le caratteristiche): alcune misure per stabilire se le variabili all'interno del gruppo di variabili misurano la stessa cosa.
  2. Correlazione tra gruppi di variabili: alcune misure, supponendo che ciascun gruppo rifletta un tratto complessivo, di come ogni tratto (gruppo) è correlato ad ogni altro tratto.

Queste caratteristiche sono state precedentemente classificate in gruppi. Sono interessato a trovare la correlazione tra i gruppi - ovvero supponendo che le caratteristiche all'interno del gruppo stiano misurando lo stesso tratto sottostante (avendo completato il numero 1 sopra - l'alfa di Cronbach), i tratti stessi sono correlati?

Qualcuno ha suggerimenti su dove iniziare?


1
Se hai familiarità con R, esiste un pacchetto vegancon funzioni anosimo preferibilmente adonis(MANOVA permutazionale).
Roman Luštrik,

Ho aggiornato la tua domanda per cercare di utilizzare la terminologia standard (ovvero variabili non caratteristiche; gruppi di variabili anziché "gruppi")
Jeromy Anglim

Risposte:


16

Quello che @rolando ha suggerito sembra un buon inizio, se non l'intera risposta (IMO). Consentitemi di continuare con l'approccio correlazionale, seguendo il framework CTT (Classical Test Theory). Qui, come notato da @Jeromy, una misura sommaria per il tuo gruppo di caratteristiche potrebbe essere considerata come il punteggio totale (o somma) di tutti gli elementi (una caratteristica, nelle tue parole) appartenenti a ciò che ora chiamerò scala. In base alla CTT, questo ci consente di formalizzare la propensione o la responsabilità del "tratto" individuale come posizione di una persona su una scala continua che riflette un costrutto sottostante (un tratto latente), sebbene qui sia solo una scala ordinale (ma questo altro dibattito nella letteratura psicometrica) .

Ciò che hai descritto ha a che fare con la validità convergente (in che misura gli elementi appartenenti alla stessa scala sono correlati tra loro) e discriminanti (gli elementi appartenenti a scale diverse non dovrebbero essere correlati in larga misura) in psicometria. Le tecniche classiche includono l'analisi multi-metodo multi-metodo (MTMM) (Campbell & Fiske, 1959). Un'illustrazione di come funziona è mostrata di seguito (tre metodi o strumenti, tre costrutti o tratti):

inserisci qui la descrizione dell'immagine

>0.7 tra i tratti attraverso i metodi<.3

Anche se questo metodo è stato inizialmente sviluppato per valutare la validità convergente e discriminante di un certo numero di tratti, come studiato da diversi strumenti di misurazione, può essere applicato per un singolo strumento multi-scala. I tratti diventano quindi gli elementi e i metodi sono solo le diverse scale. Una generalizzazione di questo metodo su un singolo strumento è anche nota come ridimensionamento multitrait . Gli elementi correlati come previsto (ovvero con una propria scala anziché con una scala diversa) vengono conteggiati come successo del ridimensionamento. In genere supponiamo, tuttavia, che le diverse scale non siano correlate, ovvero che stiano prendendo di mira diversi costrutti ipotetici. Ma la media delle correlazioni all'interno e tra le scale fornisce un modo rapido di riassumere la struttura interna del tuo strumento. Un altro modo conveniente per farlo è applicare un'analisi cluster sulla matrice di correlazioni a coppie e vedere come le variabili si uniscono.

Da notare, in entrambi i casi, si applicano le solite avvertenze su come lavorare con le misure di correlazione, ovvero che non si può rendere conto dell'errore di misurazione, è necessario un campione di grandi dimensioni, si presume che strumenti o test siano "paralleli" (equivalenza tau, errori non correlati, pari varianze di errore).

Anche la seconda parte affrontata da @rolando è interessante: se non vi è alcuna indicazione teorica o sostanziale che il raggruppamento di elementi già stabilito abbia senso, allora dovrete trovare un modo per evidenziare la struttura dei vostri dati con, ad esempio, l'analisi fattoriale esplorativa . Ma anche se ti fidi di quelle "caratteristiche all'interno di un gruppo", puoi verificare che si tratti di un presupposto valido. Ora, potresti utilizzare il modello di analisi del fattore di conferma per verificare che il modello di caricamento degli articoli (correlazione di un articolo con la propria scala) si comporti come previsto.

Invece dei tradizionali metodi di analisi fattoriale, puoi anche dare un'occhiata al raggruppamento di oggetti (Revelle, 1979) che si basa su una regola divisa basata su alfa di Cronbach per raggruppare gli oggetti in scale omogenee.

Un'ultima parola: se stai usando R, ci sono due pacchetti molto belli che faciliteranno i passaggi di cui sopra:

  • psych , vi fornisce tutto il necessario per iniziare a lavorare con metodi psicometria, compresa l'analisi dei fattori ( fa, fa.parallel, principal), articoli di clustering ( ICLUSTe relativi metodi), alfa di Cronbach ( alpha); c'è una bella panoramica disponibili sul sito web di William Revelle, soprattutto Un'introduzione alla teoria psicometrica con applicazioni in R .
  • psy , include anche la visualizzazione del diagramma a ghiaia (tramite PCA + set di dati simulati) ( scree.plot) e MTMM ( mtmm).

Riferimenti

  1. Campbell, DT e Fiske, DW (1959). Convalida convergente e discriminante da parte della matrice multitrait-multimetodo. Bollettino psicologico , 56: 81–105.
  2. Hays, RD e Fayers, P. (2005). Valutazione di scale multi-articolo. Nel valutare la qualità della vita negli studi clinici , (Fayers, P. and Hays, R., Eds.), Pp. 41-53. Oxford.
  3. Revelle, W. (1979). Analisi gerarchica del cluster e struttura interna dei test. Ricerca comportamentale multivariata , 14: 57-74.

Questa è, forse, la risposta più interessante che ho letto in uno qualsiasi degli scambi e ho studiato econometria per 5 anni.
d8aninja

La matrice MTMM inclusa qui dovrebbe essere un esempio realistico di una matrice di correlazione? In tal caso, noterò che in realtà non è una matrice semidefinita positiva: ad esempio, il minore 4 per 4 per le correlazioni dei tratti 1,2 attraverso i metodi 1,2 ha determinante -0,0419179. (Dato che si tratta di un piccolo valore negativo, forse questo va semplicemente al tuo punto in riferimento a: "errore di misurazione".)
Semiclassico

7

Il modo in cui leggo la tua terminologia, quello che vuoi è prima di valutare la coerenza interna all'interno di ciascun gruppo di variabili, quindi di valutare le correlazioni tra i punteggi di scala che costituiscono la media di ciascun gruppo di variabili. Il primo può essere fatto usando l'alfa di Cronbach e il secondo usando la correlazione di Pearson. Questo presuppone che tu abbia distribuzioni ragionevolmente normali e relazioni ragionevolmente lineari.

Un metodo più coinvolto, e non necessariamente richiesto, sarebbe quello di condurre un'analisi esplorativa dei fattori. Dovresti provare a stabilire quali variabili dovrebbero essere raggruppate insieme e poi di nuovo in che misura quei fattori sarebbero correlati. Se provi questo metodo, assicurati di utilizzare la rotazione obliqua per consentire la visualizzazione di tali correlazioni. Se utilizzi l'estrazione dei componenti principali o l'estrazione dell'asse principale dipenderebbe, rispettivamente, dal fatto che le tue variabili siano misurazioni obiettive, prive di errori o soggettive come gli elementi di rilevamento che contengono una certa quantità di errore.


Grazie per la risposta. Sono riuscito a calcolare l'alfa di Cronbach, ma come si calcolano i coefficienti di correlazione di Pearson in questo caso? Potrei calcolarli in modo a coppie per ogni singola caratteristica, ma mi piacerebbe sapere come calcolare le correlazioni tra gruppi di caratteristiche. Le caratteristiche all'interno di un gruppo avranno punteggi simili per ogni osservazione. Ho intenzione di modificare la mia domanda per renderlo un po 'più chiaro.
blep

5
  • Gli strumenti standard, almeno in psicologia, nella tua situazione sarebbero l'analisi fattoriale esplorativa e di conferma per valutare la convergenza della matrice di correlazione tra elementi con alcuni modelli proposti della relazione tra fattori e oggetti. Il modo in cui hai formulato la tua domanda suggerisce che potresti non avere familiarità con questa letteratura. Ad esempio, ecco i miei appunti sul costruzione scala e l'analisi dei fattori ed ecco un tutorial in R sull'analisi dei fattori dal modulo Quick-R . Pertanto, mentre vale la pena rispondere alla tua domanda specifica, penso che i tuoi obiettivi più ampi saranno meglio serviti esaminando gli approcci analitici dei fattori per valutare scale multi-elemento e multi-fattore.

  • Un'altra strategia standard sarebbe quella di calcolare i punteggi totali per ciascun gruppo di variabili (quella che definirei una "scala") e correlare le scale.

  • Molti strumenti di analisi dell'affidabilità segnaleranno una correlazione media tra gli articoli.

  • Se hai creato la matrice 50 per 50 delle correlazioni tra gli elementi, potresti scrivere una funzione in R che mediava i sottoinsiemi in base a combinazioni di gruppi di variabili. Potresti non ottenere ciò che desideri se disponi di una combinazione di elementi positivi e negativi, poiché le correlazioni negative potrebbero annullare le correlazioni positive.


2

Suggerirei di utilizzare come sostituto della nozione di correlazione, che è definita solo per coppia, la nozione di informazione reciproca e integrazione nei modelli gaussiani.

sol1

io1αlog(|C1|)

C1sol1sol1log(1-ρ2)ρ

Per calcolare l'interazione tra due gruppi di variabili, è possibile utilizzare le informazioni reciproche, che sono solo entropia incrociata tra i gruppi:

MU12=io12-io1-io2

Ho trovato un riferimento a queste nozioni dopo un rapido google che potrebbe essere utile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.