Coefficiente di correlazione per variabile nominale non dicotomica e variabile ordinale o numerica

Ho già letto tutte le pagine di questo sito cercando di trovare la risposta al mio problema, ma nessuno sembra essere quello giusto per me ...

Innanzitutto ti spiego il tipo di dati con cui sto lavorando ...

Diciamo che ho un vettore array con diversi nomi di città, uno per ognuno di 300 utenti. Ho anche un altro vettore di array con risposta dei punteggi a un sondaggio di ciascun utente o un valore continuo per ciascun utente.

Vorrei sapere se esiste un coefficiente di correlazione che calcola la correlazione tra queste due variabili così, variabili nominali e numeriche / ordinali

Ho cercato su Internet e in alcune pagine suggeriscono di utilizzare il coefficiente di contingenza o il coefficiente V o Lambda di Cramer o Eta. Per ciascuna di questa misura, basta dire che potrebbero essere applicati per tali dati in cui abbiamo una variabile nominale e intervallo o variabile numerica. Il fatto è che la ricerca e la ricerca, cercando di comprenderne ognuna, a volte vengono scritte o osservano gli esempi secondo cui è ragionevole usarle se si dispone di una variabile nominale dicotomica, ad eccezione di V di Cramer, altre volte non è scritto alcun requisito per il tipo di dati. Molte altre pagine affermano che è giusto applicare la regressione, giusto, ma vorrei semplicemente sapere se esiste un coefficiente come Pearson / Spearman per questo tipo di dati.

Penso anche che non sia così appropriato usare Spearman Correlation coeff poiché le città non sono ordinabili.

Ho anche creato la funzione di Cramer'sV ed Eta da solo (sto lavorando con Matlab) ma per Eta non parlano di alcun valore p per vedere se il coefficiente è statisticamente significativo ...

Nel sito matlabWorks c'è anche una bella cassetta degli attrezzi che dice di calcolare eta ^ 2 ma il tipo di input di cui ha bisogno non è comprensibile.

Qui c'è qualcuno che ha fatto un test come il mio? Se hai bisogno di maggiori dettagli per capire il tipo di dati che sto usando, chiedimi e cercherò di spiegarti meglio.

— Cristis
fonte

Cramérs V è per due nominali. Cosa c'è di male nella regressione? Prendi la variabile numerica come risposta e regrediscila al nominale (usando i manichini). Guarda

e il test F globale associato.

R^{2}

$R^2$

— Michael M,

Non c'è niente di sbagliato nella regressione, ma dato che abbiamo già quella misura vorremmo verificarla in un altro modo, proprio come un doppio controllo con un coefficiente di correlazione .... grazie per la risposta

— cristis

Non hai detto nulla di specifico sulla tua variabile "numerica / ordinale". Cosa ti rende ordinario? numerico?

— ttnphns,

perché ordinale ho una variabile proveniente da un test di indagine quindi il suo intervallo è -4,4, puoi anche considerarlo come intervallo ma questo tipo di variabile di indagine è considerata principalmente come ordinale e le altre sono numeriche, in modo continuo continuo così come sono funzioni estratte.

— cristis,

VEDERE ANCHE domanda correlata stats.stackexchange.com/questions/23938/…

— ttnphns

Risposte:

Intervallo nominale vs

La più classica misura di "correlazione" tra una variabile nominale e un intervallo ("numerico") è Eta , chiamata anche rapporto di correlazione, ed è uguale al quadrato R di radice dell'ANOVA a una via (con valore p = quello del ANOVA). Eta può essere vista come una misura di associazione simmetrica, come la correlazione, perché Eta di ANOVA (con il nominale come indipendente, numerico come dipendente) è uguale alla traccia di Pillai della regressione multivariata (con il numerico come indipendente, insieme di variabili fittizie corrispondenti al nominale come dipendente).

Una misura più sottile è il coefficiente di correlazione intraclasse ( ICC ). Considerando che Eta afferra solo la differenza tra i gruppi (definiti dalla variabile nominale) rispetto alla variabile numerica, contemporaneamente l'ICC misura anche il coordinamento o l'accordo tra i valori numerici all'interno dei gruppi; in altre parole, ICC (in particolare la versione ICC "accoppiamento" imparziale originale) rimane a livello di valori mentre Eta opera a livello di statistiche (gruppo significa vs varianze di gruppo).

Nominale vs ordinale

La domanda sulla misura di "correlazione" tra una variabile nominale e una ordinale è meno evidente. La ragione della difficoltà è che la scala ordinale è, per sua natura, più "mistica" o "attorcigliata" delle scale di intervallo o nominali. Nessuna meraviglia che finora le analisi statistiche appositamente per i dati ordinali siano relativamente scarsamente formulate.

Un modo potrebbe essere quello di convertire i tuoi dati ordinali in ranghi e quindi calcolare Eta come se i ranghi fossero dati di intervallo. Il valore p di tale Eta = quello dell'analisi di Kruskal-Wallis. Questo approccio sembra giustificato a causa dello stesso ragionamento del perché Spearman rho è usato per correlare due variabili ordinali. Quella logica è "quando non conosci le larghezze degli intervalli sulla scala, taglia il nodo gordiano linearizzando ogni possibile monotonia: vai a classificare i dati".

Un altro approccio (forse più rigoroso e flessibile) sarebbe quello di utilizzare la regressione logistica ordinale con la variabile ordinale come DV e quella nominale come IV. La radice quadrata dello pseudo R-quadrato di Nagelkerke (con il valore p della regressione) è un'altra misura di correlazione per te. Si noti che è possibile sperimentare varie funzioni di collegamento nella regressione ordinale. Questa associazione, tuttavia, non è simmetrica: il nominale è assunto indipendente.

Ancora un altro approccio potrebbe essere quello di trovare una tale trasformazione monotona di dati ordinali in intervallo - invece di classificare il penultimo paragrafo - che massimizzerebbe R (cioè Eta ) per te. Questa è una regressione categoriale (= regressione lineare con ridimensionamento ottimale).

Ancora un altro approccio è quello di eseguire l' albero di classificazione , come CHAID, con la variabile ordinale come predittore. Questa procedura raccoglierà (quindi è l'approccio opposto al precedente) categorie ordinate adiacenti che non distinguono tra le categorie del predittore nominale. Quindi puoi fare affidamento su misure di associazione basate sul Chi-quadrato (come la V di Cramer) come se correlassi le variabili nominali con quelle nominali.

E @Michael nel suo commento suggerisce ancora un altro modo: un coefficiente speciale chiamato Theta di Freeman .

Quindi, siamo arrivati finora a queste opportunità: (1) classifica, quindi calcola Eta; (2) Usa regressione ordinale; (3) Usa la regressione categorica ("ottimizzando" la trasformazione della variabile ordinale in intervallo); (4) Utilizzare l'albero di classificazione ("in modo ottimale" riducendo il numero di categorie ordinate); (5) Usa il Theta di Freeman.

— ttnphns
fonte

PS C'è una buona breve panoramica sugli approcci variabili ordinali nel blog di Jeromy Anglim jeromyanglim.blogspot.ru/2009/10/…

— ttnphns,

θ

$\theta$

@ Michael grazie, qui ho trovato un documento "Un ulteriore nota sulla misura di cittadino onorario della associazione" moreno.ss.uci.edu/22.pdf

— ttnphns

Per ulteriori informazioni sul theta di Freeman e un pacchetto R che include la statistica, vedere questa domanda con convalida incrociata .

— Sal Mangiafico,

@ttnphns Siamo spiacenti, potresti rispondere a questa domanda: stats.stackexchange.com/questions/363543/… Grazie mille.

— ebrahimi,

$F$ $p$ $F$ $p$ $SS_{between\, cities}/SS_{total}$ $R^2$ $R$

— Ray Koopman
fonte