Soglia per il coefficiente di correlazione per indicare la significatività statistica di una correlazione in una matrice di correlazione


10

Ho calcolato una matrice di correlazione di un set di dati che contiene 455 punti dati, ogni punto dati contenente 14 caratteristiche. Quindi la dimensione della matrice di correlazione è 14 x 14.

Mi chiedevo se esiste una soglia per il valore del coefficiente di correlazione che sottolinea che esiste una correlazione significativa tra due di quelle caratteristiche.

Ho un valore che varia da -0,2 a 0,85 e pensavo che quelli importanti siano quelli che sono sopra lo 0,7.

  • Esiste un valore generale per il coefficiente di correlazione che deve essere considerato per la soglia o dipende solo dal contesto dal tipo di dati che sto esaminando?


@ user603 Buona cattura: è praticamente la stessa domanda. L'innovazione qui è di chiedere se i test per una correlazione significativa potrebbero dipendere dal "tipo di dati" (leggi: distribuzione dei dati). Speriamo che le risposte si concentrino su questo aspetto invece di andare oltre il vecchio terreno.
whuber

Risposte:


8

Test di significatività per correlazioni

Esistono test di significatività statistica che possono essere applicati a singole correlazioni, che indicano la probabilità di ottenere una correlazione maggiore o maggiore rispetto alla correlazione del campione ipotizzando che l'ipotesi nulla sia vera.

Il punto chiave è che ciò che costituisce un coefficiente di correlazione statisticamente significativo dipende da:

  • Dimensione del campione : dimensioni del campione più grandi porteranno a soglie più piccole
  • alfa : spesso impostato su 0,005, gli alfa più piccoli porteranno a soglie più elevate per il significato statistico
  • test a una coda / a due code : immagino che useresti due code quindi questo probabilmente non ha importanza
  • tipo di coefficiente di correlazione : suppongo che tu stia usando Pearson
  • ipotesi distributive di xey

In circostanze comuni, dove l'alfa è 0,05, usando il test a due code, con la correlazione di Pearson, e dove la normalità è almeno un'approssimazione adeguata, il fattore principale che influenza il cut-off è la dimensione del campione.

Soglia di importanza

Un altro modo di interpretare la tua domanda è considerare che non sei interessato a stabilire se una correlazione sia statisticamente significativa, ma piuttosto se sia praticamente importante.

Alcuni ricercatori hanno offerto regole empiriche per l'interpretazione del significato dei coefficienti di correlazione, ma queste regole empiriche sono specifiche del dominio.

Test di significatività multipla

Tuttavia, poiché sei interessato a contrassegnare le correlazioni significative in una matrice, questo cambia il contesto inferenziale. Hai correlazioni dove è il numero di variabili (cioè Se l'ipotesi nulla fosse vera per tutte le correlazioni nella matrice, allora più test di significatività si eseguono , quindi più è probabile che tu commetta un errore di tipo I. Ad esempio, nel tuo caso commetterai in media errori tipo I se l'ipotesi nulla fosse vera per tutte le correlazioni.K(K-1)/2K14(13)/2=9191*.05=4.55

Come ha sottolineato @ user603, questi problemi sono stati ben discussi in questa domanda precedente .

In generale, trovo utile quando si interpreta una matrice di correlazione concentrarsi su una struttura di livello superiore. Questo può essere fatto in modo informale osservando i modelli generali nella matrice di correlazione. Questo può essere fatto in modo più formale usando tecniche come la PCA e l'analisi dei fattori. Tali approcci evitano molte delle problematiche associate ai test di significatività multipla.


1

Un'opzione sarebbe la simulazione o il test di permutazione. Se conosci la distribuzione da cui provengono i tuoi dati, puoi simulare da quella distribuzione, ma con tutte le osservazioni indipendenti. Se non conosci la distribuzione, puoi permutare ciascuna delle tue variabili indipendentemente l'una dall'altra e questo ti darà la stessa distribuzione marginale generale di ogni variabile, ma con qualsiasi correlazione rimossa.

Effettuate una delle due operazioni precedenti (mantenendo le dimensioni del campione e le dimensioni della matrice uguali) un sacco di volte (10.000 o giù di lì) e osservate la massima correlazione assoluta o un altro quantile elevato che potrebbe essere interessante. Questo ti darà la distribuzione dall'ipotesi nulla che tu possa quindi confrontare il massimo delle tue effettive correlazioni osservate con (e gli altri alti quantili di interesse).


0

È possibile mostrare che l'errore standard nella correlazione di Pearson di due vettori stocasticamente indipendenti campionati dalla distribuzione normale è , dove è la lunghezza del vettore. Quindi la correlazione statisticamente significativa di due vettori avrebben-2ncorr>>n-2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.