Misura non parametrica della forza di associazione tra una variabile casuale ordinale e una continua


12

Sto gettando qui il problema quando l'ho ricevuto.

Ho due variabili casuali. Uno dei quali è continuo (Y) e l'altro che è discreto e verrà affrontato come ordinale (X). Ho messo sotto la trama che ho ricevuto insieme alla query.

inserisci qui la descrizione dell'immagine

La persona che mi ha inviato i dati vuole misurare la forza dell'associazione tra X e Y. Sto cercando idee che non verrebbero caricate in anticipo con ipotesi su quale processo abbia generato i dati. Si noti che non si tratta di trovare un modo non parametrico per testare la forza della relazione (come in bootstrap) ma di trovare un modo non parametrico per misurarlo .

D'altra parte, l'efficienza non è un problema in quanto vi sono molti punti dati.


1
X (la variabile discreta) è ordinale o no?
Peter Flom - Ripristina Monica

@PeterFlom: grazie. Sì. Aggiungo questo alla domanda.
user603

Con "non parametrico" intendi qui che non è consentito il calcolo della media o della varianza?
ttnphns,

Risposte:


7

Per definizione, la scala ordinale è l'indicatore in cui le vere distanze tra le tacche 1 2 3 4sono sconosciute. È come se stessi vedendo un sovrano sotto droghe / alcol. Le vere distanze possono essere qualsiasi. Potrebbe essere 1 2 3 4o 1 2 3 4o qualsiasi altra cosa. Non possiamo calcolare una statistica - come una correlazione - a meno che non decidiamo le distanze, fissarle.

Un ragionamento può essere il seguente. Poiché la nostra scala di misurazione, il misuratore, è distorta in un modo monotonico sconosciuto, non possiamo credere nei valori dei dati. Solo l'ordine delle loro magnitudini è degno di fiducia. Senza ulteriore imbracatura del cervello, dichiara che l'ordine è il valore. Pertanto, sostituiamo la distribuzione osservata con una distribuzione uniforme, i gradi . Successivamente, può calcolare il coefficiente di associazione, diciamo Pearson . Quello sarà Spearman , come sappiamo. Pearson misura la forza dell'associazione lineare. La classificazione delle variabili è stata un trucco per linearizzare quella parte della relazione monotonica attribuita alle distribuzioni che inizialmente non erano state uniformi. Quindi, Spearmanr h o r r h o rrrhorrhoè la misura di tale monotonicità nella relazione che può essere convertita in linearità sotto l'azione di uniformazione delle distribuzioni marginali. Nella domanda OP, solo una delle due variabili è ordinale (e la seconda è continua). Pertanto, non è necessario, in generale, classificare entrambe le variabili. Può solo classificare quello ordinale e quindi calcolare .r

Un altro approccio , alternativo alla classifica (uniforming), può essere il ridimensionamento ottimale della variabile ordinale. Il ridimensionamento ottimale è una procedura iterativa con l'obiettivo di trovare tali distanze sulla scala ordinale - cioè trovare tale trasformazione monotonica di essa - in modo che la lineare tra le variabili sia massimizzata il più possibile. Mentre l'approccio di classificazione si basa sul presupposto "la scala reale corrisponde a dati con distribuzione uniforme", l'approccio di ridimensionamento ottimale si basa sul presupposto "la scala reale corrisponde a dati con lineare massimarrr". Il ridimensionamento ottimale può essere fatto nella regressione categoriale (CATREG). Tuttavia, la regressione categorica richiede che l'altra variabile di input sia discreta (non necessariamente ordinale) e quindi se è continua con molti valori univoci dovrà essere arbitrariamente vincolata da te .

Ci sono anche altri approcci. Ma in ogni caso, trasformiamo monotonicamente la scala ordinale "in modo da ..." (qualche ipotesi o qualche obiettivo), perché la scala ordinale ci è distorta in un modo sconosciuto. Radicalmente un'altra decisione sarebbe quella di "sobriare" prima e decidere che non è distorto (cioè è intervallo), o distorto in un modo noto (è non uniforme), o è nominale.

Alcuni approcci asimmetrici possono includere la regressione ordinale della variabile ordinale dall'altra (intervallo / continua). O regressione lineare di quest'ultima da parte di quella ordinale, con il modello in cui il predittore viene preso come contrasto polinomiale (cioè inserito come b1X + b2X^2 + b3X^3,...). Il punto debole di questi approcci è che sono asimmetrici: una variabile dipende, l'altra è indipendente.


Grazie; ottima idea, per calcolare i ranghi su una sola variabile.
user603

6

C'è qualche ragione per cui il coefficiente di correlazione di ordine di rango di Spearman (una misura non parametrica dell'associazione monotonica ) non sarebbe sufficiente? Anche la monotonicità è "caricata frontalmente?" Si basa sulle differenze ( ) nei ranghi generati indipendentemente ( e ) per le tue variabili: x i y idio=Xio-yioXioyio

rS=1-6Σio=1ndio2n(n2-1)

Se la monotonicità è un presupposto troppo rigoroso, mi chiedo se approcci basati su informazioni massime, come quello proposto da Reshef (2011, 2013), che non assumono nemmeno relazioni funzionali tra e potrebbero essere più in linea con ciò che sei cercando?YXY


Riferimenti

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M. e Sabeti, P. (2011). Rilevamento di nuove associazioni in set di dati di grandi dimensioni. Scienza , 334 (6062): 1518-1524.

Reshef, D., Reshef, Y., Mitzenmacher, M. e Sabeti, P. (2013). Analisi di equità del coefficiente di informazione massimo, con confronti . arXiv , 14 agosto.


Entrambi sembrano ottime idee. In effetti, i due approcci che proponi si completano a vicenda. Lascerò la domanda ancora aperta per un po '.
user603
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.