Il recensore avrebbe dovuto dirti perché Spearman non è appropriato. Ecco una versione di questo: Lascia che i dati siano ( Z i , I i ) dove Z è la variabile misurata e I è l'indicatore di genere, supponiamo che sia 0 (uomo), 1 (donna). Quindi ρ di Spearman viene calcolato in base ai ranghi di Z , I rispettivamente. Poiché ci sono solo due possibili valori per l'indicatore I , ci saranno molti legami, quindi questa formula non è appropriata. Se sostituisci il rango con il rango medio, otterrai solo due valori diversi, uno per gli uomini, l'altro per le donne. Quindi ρρ(Zi,Ii)ZIρZ,IIρdiventerà sostanzialmente una versione riscalata dei ranghi medi tra i due gruppi. Sarebbe più semplice (più interpretabile) semplicemente confrontare i mezzi! Un altro approccio è il seguente.
Sia le osservazioni della variabile continua tra gli uomini, Y 1 , ... , Y m lo stesso tra le donne. Ora, se la distribuzione di X e di Y sono uguali, allora P ( X > Y ) sarà 0,5 (supponiamo che la distribuzione sia puramente assolutamente continua, quindi non ci sono legami). Nel caso generale, definire
θ = P ( X > Y )
dove X è un pareggio casuale tra gli uomini, YX1,…,XnY1,…,YmXYP(X>Y)
θ=P(X>Y)
XYtra le donne. Possiamo stimare
dal nostro campione? Forma tutte le coppie
( X i , Y j ) (non assumere legami) e conta per quante ne abbiamo "uomo è più grande" (
X i > Y j ) (
M ) e per quante "donna è più grande" (
X i < Y j ) (
W ). Quindi una stima del campione di
θ è
Mθ(Xi,Yj)Xi>YjMXi<YjWθ
Questa è una misura ragionevole di correlazione! (Se ci sono solo alcuni legami, ignorali). Ma non sono sicuro di come si chiama, se ha un nome. Questo potrebbe essere vicino:
https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaMM+W