Valori medi di correlazione


20

Diciamo che collaudo come la variabile Ydipende dalla variabile Xin diverse condizioni sperimentali e ottengo il seguente grafico:

inserisci qui la descrizione dell'immagine

Le linee tratteggiate nel grafico sopra rappresentano la regressione lineare per ciascuna serie di dati (configurazione sperimentale) e i numeri nella legenda indicano la correlazione di Pearson di ciascuna serie di dati.

Vorrei calcolare la "correlazione media" (o "correlazione media") tra Xe Y. Posso semplicemente fare una media dei rvalori? Che dire del "criterio di determinazione medio", ? Dovrei calcolare la media e quindi prendere il quadrato di quel valore o devo calcolare la media dei singoli ?R 2R2rR2

Risposte:


15

Il modo semplice è aggiungere una variabile categoriale per identificare le diverse condizioni sperimentali e includerla nel modello insieme a una "interazione" con ; cioè . Questo conduce tutte e cinque le regressioni contemporaneamente. Il suo è quello che vuoi.x y z + x # z R 2zxyz+x#zR2

Per capire perché la media dei singoli valori potrebbe essere errata, supponiamo che la direzione della pendenza sia invertita in alcune delle condizioni sperimentali. Dovresti fare la media di un gruppo di 1 e -1 a circa 0, il che non rifletterebbe la qualità di nessuno degli accoppiamenti. Per capire perché la media di (o qualsiasi sua trasformazione fissa) non è corretta, supponiamo che nella maggior parte delle condizioni sperimentali tu abbia avuto solo due osservazioni, quindi il loro equivale a , ma in un esperimento hai avuto cento osservazioni con . L' medio di quasi 1 non rifletterebbe correttamente la situazione.R 2 R 2 1 R 2 = 0 R 2RR2R21R2=0R2


1
perdona la mia ignoranza, ma cosa significa il segno # nella tua risposta?
Boris Gorelik

1
Penso che la tua risposta sia ottima per la definizione implicita di correlazione utilizzata. E se lo intendessero come pendenza standardizzata media (forse implicita nella figura)? In tal caso, si desidera annullare i negativi e i positivi. Sei morto per il problema delle dimensioni del campione. Inoltre, considera di spostare il tuo commento nella tua risposta.
Giovanni,

Vuoi o regolato ? R 2R2R2
Russellpierce,

@whuber nel tuo commento iniziale lì, intendi che la correlazione potrebbe essere ; l' in ogni caso è . (Mi rendo conto che questo è solo un problema di battitura o modifica; non cambia il tuo punto, ma può fuorviare.)R 2 1±1R21
Glen_b -Reststate Monica

@rpierce Nel secondo paragrafo non fa alcuna differenza le idee se usi aggiustato - immagina semplicemente insiemi di tre , piuttosto che due punti, che sono quasi collineari. Il loro può essere arbitrariamente vicino a . R 2 1R2R21
whuber

24

Per i coefficienti di correlazione di Pearson, è generalmente appropriato trasformare i valori di r usando una trasformazione di Fisher z . Quindi calcola la media dei valori z e converti la media in un valore r .

Immagino che andrebbe bene anche per un coefficiente di Spearman.

Ecco un documento e la voce di Wikipedia .


1
+1; Questa risposta sembra più appropriata e generale della risposta accettata, tuttavia nel caso d'uso specifico non andrebbe in pezzi per valori r di 1? C'è qualcosa di simile a un logico imperiale qui dove si dovrebbe semplicemente "aggiungere" un punto dati privo della correlazione? In tal caso, dove lo si aggiungerebbe? Si dovrebbe condurre una sim di monte carlo afferrando due variabili casuali dalle distribuzioni dei sorgenti? In alternativa, si potrebbe semplicemente regolare r su un valore leggermente inferiore a 1? Fino a che punto si dovrebbe adeguare?
Russellpierce,

3

La correlazione media può essere significativa. Considera anche la distribuzione delle correlazioni (ad esempio, traccia un istogramma).

Ma a quanto ho capito, per ogni individuo hai una classifica di elementi più classifiche previste di quegli elementi per quell'individuo e stai osservando la correlazione tra le classifiche di un individuo e quelle previste.n

In questo caso, è possibile che la correlazione non sia la misura migliore di quanto bene l'algoritmo sta facendo previsioni. Ad esempio, immagina che l'algoritmo ottenga perfettamente i primi 100 elementi e che i successivi 200 siano completamente incasinati, al contrario. Potrebbe interessarti solo della qualità delle migliori classifiche. In questo caso, potresti esaminare la somma delle differenze assolute tra la classifica dell'individuo e la classifica prevista, ma solo tra le prime voci dell'individuo .m


1

Che dire dell'utilizzo dell'erede previsto al quadrato medio (MSPE) per le prestazioni dell'algoritmo? Questo è un approccio standard a ciò che stai cercando di fare, se stai cercando di confrontare le prestazioni predittive tra una serie di algoritmi.


Non sono sicuro del perché questo post stats.stackexchange.com/questions/17129/… sia stato unito a questo. A mio avviso, in realtà stanno ponendo due domande diverse: ci sono due obiettivi diversi.
StatStudent

1
Hai ragione: sono domande diverse. Ho votato per riaprire l'altro post (anche se l'effetto che potrebbe avere non è chiaro). Mi scuso per non aver visto il tuo commento: se avessi invece contrassegnato quel post, sarebbe venuto alla nostra attenzione diversi anni prima!
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.