Test di significatività sulla differenza del coefficiente di correlazione di Spearman

(Grazie mille per le risposte rapide! Ho fatto un pessimo lavoro nel porre la domanda, quindi lasciami riprovare.)

Non so come scoprire se la differenza tra due correlazioni di Spearman sia statisticamente significativa. Vorrei sapere come scoprirlo.

La ragione che volevo scoprire è che nel seguente documento: Semantic Interpretation for Natural Language Processing , basato su Wikipedia , di Gabrilovich e Markovitch ( Journal of Artificial Intelligence Research 34 (2009) 443-498).

Nella Tabella 2 (p. 457), gli autori stanno dimostrando che il loro metodo (ESA-Wikipedia) raggiunge una correlazione di Spearman più elevata e statisticamente significativa rispetto ad altri metodi, e vorrei fare lo stesso per dimostrare che il mio metodo è migliore del precedente metodi per qualche problema.

Non so come abbiano calcolato il significato statistico e vorrei saperlo. L'autore dell'articolo ha affermato che la correlazione tra gradi di Spearman è stata trattata come correlazione di Pearson. Non sono sicuro che sia il modo giusto per farlo. Ho due correlazioni di Spearman e vorrei sapere se la differenza tra loro è statisticamente significativa o meno.

Sono consapevole che i siti Web, come http://faculty.vassar.edu/lowry/rdiff.html , forniscono un calcolatore online per ottenere la differenza tra due correlazioni di Pearson. Non riesco a trovare un calcolatore online simile per la differenza tra due correlazioni di Spearman.

Una soluzione dal collegamento fornito da Peter Flom

NOTA: le procedure supportano solo le correlazioni di Spearman inferiori a 0.6.

Let = Fisher trasformata di correlazione osservata di serie , = Fisher trasformata di correlazione osservata del set . $z_A$ $A$ $z_B$ $B$
Per , let , dove è la trasformata di Fisher dell'insieme della correlazione a sinistra sinistra ottenuta da eliminazione , nuova classificazione e nuova elaborazione della correlazione. (Ogni si basa su $i = 1,\dots,n$ $y_{A_i} = nz_A- (n - 1)z_{A'i}$ $z_{A'i}$ $A$ $(x_i,y_i)$ $z_{A'i}$ paio; ogni eliminazione è temporaneo, per ciò che io solo, non è permanente.) Ripetere per il set . $n-1$ $B$
è la trasformata di Fisher con jackknifed. Ripetere l'operazione per set. $\bar y_A = \sum y_{A_i}/n$ $B$
è la varianza di . Ripetere l'operazione per set . $v_{\bar y_A} = \sum (y_{A_i}-\bar y_A)^2 /(n(n-1))$ $\bar y_A$ $B$
Utilizzare un heteroscedastic (Welch-Satterthwaite) -test per confrontare le due stime jackknifed: $t$

doveesono il numero di campioni di serieerispettivamente.

t = \frac{{\bar{y}}_{A} - {\bar{y}}_{B}}{\sqrt{v_{{\bar{y}}_{A}} + v_{{\bar{y}}_{B}}}}, df = \frac{(v_{{\bar{y}}_{A}} + v_{{\bar{y}}_{B}})^{2}}{\frac{v_{{\bar{y}}_{A}}^{2}}{n_{A} - 1} + \frac{v_{{\bar{y}}_{B}}^{2}}{n_{B} - 1}}

$t = \frac{\bar y_A - \bar y_B}{\sqrt{v_{\bar y_A} + v_{\bar y_B}}},\quad \text{df}=\frac{(v_{\bar y_A} + v_{\bar y_B})^2}{\frac{v_{\bar y_A}^2}{n_A-1}+\frac{v_{\bar y_B}^2}{n_B-1}}$

n_{A}

$n_A$

n_{B}

$n_B$

A

$A$

B

$B$

Prima della prima modifica

Ho una serie di classifiche classificate dall'uomo (HUMAN-RANKING), una serie di classifiche generate dal metodo popolare attualmente utilizzato (PRESENT-RANKING) e infine una serie di classifiche generate dal mio metodo intenzionale (MY-RANKING) .

Ho calcolato la correlazione di Spearman tra HUMAN-RANKING e PRESENT-RANKING. Vorrei chiamare questo: HUMAN-PRESENT-SPEARMAN.

Ho quindi scoperto la correlazione di Spearman tra HUMAN-RANKING e MY-RANKING. Vorrei chiamare questo: HUMAN-MY-SPEARMAN.

Come posso scoprire se la differenza tra HUMAN-MY-SPEARMAN e HUMAN-PRESENT-SPEARMAN è statisticamente significativa?

hypothesis-testing statistical-significance spearman-rho

— Patrick Chan
fonte

Benvenuto Patrick. Sto lottando con lo stesso problema ma con Pearson r. Se controlli le mie voci, avrai un'idea di cosa puoi fare.

— Adhesh Josh,

Anche se potresti avere difficoltà a formulare questa domanda in termini statistici, sarebbe utile se sapessimo esattamente cosa ti interessava. Sei interessato alla vicinanza della correlazione (quanto i punteggi si predicono reciprocamente) o all'esistenza di una relazione più del caso. Dato che sembri avere dati classificati, ripetuti nel tempo potrebbe essere utile fare qualche lettura sui coefficienti di correlazione all'interno della classe. Spero di aver ragione, la domanda non è completamente chiara.

— Rosser,

Grazie Adhesh e Rosser. Mi dispiace per la mia scarsa descrizione della mia domanda. L'ho riscritto. Spero che sia diventata una domanda comprensibile.

— Patrick Chan,

Ciao! Attualmente sto lottando con lo stesso problema. Hai per caso un codice pronto che implementa il tuo suggerimento? Inoltre, perché funziona solo con valori di correlazione inferiori a 0,6?

— fsociety,

Il documento che citi spiega il metodo nei seguenti termini:

[...] mostriamo il significato statistico della differenza tra le prestazioni della versione ESA-Wikipedia (26 marzo 2006)) e quella di altri algoritmi usando la trasformazione z di Fisher (Stampa, Teukolsky, Vetterling, & Flannery, Numerical Ricette in C: The Art of Scientific Computing Cambridge University Press, 1997, Sezione 14.5).

Ti suggerisco di seguire quel riferimento o di dare un'occhiata alla pagina di Wikipedia sul coefficiente di Spearman per i dettagli.

— Guillermo G.
fonte

Grazie Guillermo. Sospettavo che trattassero la correlazione tra ranghi di Spearman come correlazione di Pearson e calcolassero la differenza tra due correlazioni di Pearson. Tuttavia, mi sembra che non sia il modo corretto di farlo, e quindi sto scrivendo un post qui.

— Patrick Chan,

Conosci forse un'implementazione funzionante (preferibilmente online) perché questo è ciò che l'OP sta cercando?

— chl