Correlazione tra categorie tra variabili nominali categoriche


9

Ho un set di dati con due variabili nominali categoriche (entrambe con 5 categorie). Vorrei sapere se (e come) sono in grado di identificare potenziali correlazioni tra le categorie da queste due variabili.

In altre parole, se ad esempio i risultati della categoria nella variabile 1 mostrano una forte correlazione con una categoria specifica nella variabile 2. Dato che ho due variabili con 5 categorie, l'analisi di correlazione totale per tutte le categorie si ridurrebbe a 25 risultati (almeno se funziona come spero / mi aspetto che funzioni).jij

Ho cercato di formulare il problema in domande concrete:

Domanda 1: supponiamo che trasferisca la variabile categoriale in 5 diverse variabili fittizie per valore (categoria). Questa stessa procedura corro anche per la seconda variabile. Quindi voglio determinare la correlazione tra manichino 1.i e 2.i (per esempio). È statisticamente corretto per me eseguire questa procedura mediante una normale procedura di coefficiente di correlazione? Il coefficiente di correlazione risultante da questa procedura fornisce una visione corretta di una correlazione tra le due variabili fittizie?

Domanda 2: se la procedura descritta nella domanda 1 è una procedura valida, c'è un modo per eseguire questa analisi per tutte le categorie di 2 (o forse più) variabili nominali categoriali contemporaneamente?

Il programma che sto usando è SPSS (20).


I punti sollevati da @Michael Mayer si applicano alla domanda rivista.
Nick Cox,

1
Se due variabili non sono correlate, avresti 1/25 in ogni cella di matrice 5x5 di frequenze. Quindi, stats , dove e - frequenza osservata per una qualsiasi delle 5 valori di due variabili, dovrebbero essere adatti. x y ( O - E ) 2χ2 E=xyOxy/25Oxyxy(OE)2EE=xyOxy/25Oxy
Aksakal,

3
@Aksakal "Non correlato" è qui il termine sbagliato; le variabili sono nominali, quindi le correlazioni non sono definite. Penso che tu intenda indipendente, ma l'indipendenza non implica neppure frequenze uguali. Le frequenze cellulari in indipendenza dipendono dalle frequenze marginali.
Nick Cox,

Risposte:


6

L'associazione "focale" tra la categoria di una variabile nominale e la categoria dell'altra è espressa dalla frequenza residua nella cella , come sappiamo. Se il residuo è 0, significa che la frequenza è quella prevista quando le due variabili nominali non sono associate. Maggiore è il residuo maggiore è l'associazione a causa della combinazione sovrarappresentata nel campione. Il grande residuo negativo dice equivalentemente della combinazione sottorappresentata. Quindi, la frequenza residua è ciò che desideri.j i j i jijijij

I residui grezzi non sono adatti, poiché dipendono dai totali marginali, dal totale complessivo e dalle dimensioni della tabella: il valore non è standardizzato in alcun modo. Ma SPSS è in grado di visualizzare residui standardizzati chiamati anche residui di Pearson. Il residuo di St. è il residuo diviso per una stima della sua deviazione standard (uguale alla radice quadrata del valore atteso). I residui di St. di una tabella hanno media 0 e st. dev. 1; quindi, st. residuo serve un valore z, come il valore z in una distribuzione di una variabile quantitativa (in realtà, è z nella distribuzione di Poisson). I residui di St. sono comparabili tra diverse tabelle della stessa dimensione e lo stesso totale . La statistica chi-quadro di una tabella di contingenza è la somma della st quadrata. residuiNdentro. Confrontando st. i residui in una tabella e nelle tabelle con lo stesso volume aiutano a identificare le celle particolari che contribuiscono maggiormente alla statistica chi-quadro.

SPSS visualizza anche i residui rettificati (= residui standardizzati corretti). Adj. residuo è il residuo diviso per una stima del suo errore standard. Interessante che agg. residuo è solo uguale a , dove è il totale generale e è la correlazione di Pearson ( correlazione alias Phi) tra variabili fittizie corrispondenti alle categorie e delle due variabili nominali . Questo è esattamente quello che dici di voler calcolare. Adj. il residuo è direttamente correlato ad esso. Nr i j ijrNrijNrijijr

A differenza di st. residuo, agg. il residuo è anche standardizzato rispetto alla forma delle distribuzioni marginali nella tabella (prende in considerazione la frequenza attesa non solo in quella cella ma anche nelle celle fuori dalla sua riga e dalla sua colonna) e quindi puoi vedere direttamente la forza del legame tra le categorie e - senza preoccuparsi se i loro totali marginali sono grandi o piccole rispetto alle altre categorie. Adj. anche il residuo è come uno z-score, ma ora è come z della distribuzione normale (non di Poisson). Se agg. il residuo è superiore a 2 o inferiore a -2 si può concludere che è significativo al livello . Adj. i residui sono ancora effettuati da ; j 1 N r r 2ijp<0.051Nrnon lo sono, ma è possibile ottenere tutte le da adj. residui, seguendo la formula sopra, senza spendere tempo per produrre variabili fittizie. r2

Per quanto riguarda la tua seconda domanda, sui legami di categoria a 3 vie - questo è possibile come parte dell'analisi loglineare generale che mostra anche i residui. Tuttavia, l'uso pratico dei residui di cellule a 3 vie è modesto: 3 (+) - le misure di associazione delle vie non sono facilmente standardizzabili e non sono facilmente interpretabili.


1,96 21 mag. la curva normale è il punto di taglio della coda del 2,5%, quindi il 5% se si considerano entrambe le code come per l'ipotesi alternativa a 2 lati.1.962

i j r i j Pr ( i , 1 ) Pr ( i , 2 ) i i2 Ne consegue che il significato del residuo corretto nella cella uguale al significato di . Inoltre, se nella tabella sono presenti solo 2 colonne e si sta eseguendo il test z delle proporzioni tra e , le proporzioni di colonna per la riga , il il valore p di quel test equivale al significato di entrambi (qualsiasi) agg. residui nella riga della tabella a 2 colonne.ijrijPr(i,1)Pr(i,2)ii


1

Tratto direttamente da un documento sulle statistiche bivariate con SPSS che vive qui :

Il Chi-quadrato è una tecnica utile perché puoi usarla per vedere se esiste una relazione tra due variabili ordinali, due variabili nominali o tra una variabile ordinale e una nominale. Guardi il culo. Colonna Sig e se è inferiore a 0,05, la relazione tra le due variabili è statisticamente significativa.


4
OK, ma tre brontolii, uno maggiore, due molto minori. Il chi-quadrato su due variabili ordinali ignora l'ordinamento. Questo non è il documento SPSS, ma un'introduzione elementare di qualcun altro, che semplifica eccessivamente, come appena accennato. Non hanno copiato "Asymp". correttamente (esempio nella pagina precedente). Il problema più grande per il PO è che qui la correlazione è la parola sbagliata: "associazione" è la parola chiave, in termini di misurazione, test e (soprattutto) modellizzazione dell'associazione.
Nick Cox,

1
Grazie, ho modificato un the SPSS documentpo ', non era mia intenzione attribuirgli un'indebita autenticità.
Zhubarb,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.