È consentito utilizzare le medie su un set di dati per migliorare la correlazione?


9

Ho un set di dati con una variabile dipendente e una indipendente. Entrambi non sono una serie temporale. Ho 120 osservazioni. Il coefficiente di correlazione è 0,43

Dopo questo calcolo, ho aggiunto una colonna per entrambe le variabili con la media per ogni 12 osservazioni, risultando in 2 nuove colonne con 108 osservazioni (coppie). Il coefficiente di correlazione di queste colonne è 0,77

Sembra che abbia migliorato la correlazione in questo modo. È permesso farlo? Ho aumentato il potere esplicativo della variabile indipendente usando le medie?


4
Tutto quello che hai fatto è stato eseguire i dati attraverso un filtro di smoothing. Questo viene fatto continuamente nell'elaborazione del segnale ed è perfettamente accettabile e solitamente richiesto prima che i dati siano ancora utilizzabili. Elimina il rumore che è sempre prevalente nelle misurazioni elettroniche. Tuttavia, se è accettabile per il tuo problema specifico dipende dalle specifiche di ciò che stai cercando di ottenere e probabilmente in larga misura dalla quantità di "rumore" rispetto a "qualità" nei tuoi dati. Ho appena notato "Entrambe non sono una serie temporale", quindi ho il sospetto che ciò che hai fatto non abbia senso perché cambiare l'ordine cambia i risultati
Dunk,

Grazie a tutti. La mia variabile dipendente è una serie di risultati mensili di un sistema di scommesse (questi risultati non sono correlati). La variabile indipendente è il risultato di un indicatore che ho costruito. Questo indicatore genera un punteggio su quanto estremi sono stati i punteggi delle partite sportive in un determinato mese (questi sportresults non sono correlati). Sospettavo che ciò che facevo fosse insignificante, sebbene mi sorprendesse che il coefficiente di correlazione fosse migliorato così tanto.
user2165379,

2
Non ne sono certo, ma penso che la media dei dati darebbe risultati simili. Penserei che la media riduca gli effetti degli outlier. Pertanto, la correlazione dovrebbe migliorare. Tuttavia, scommetto che alcuni meek-geek possono trovare dati ben scelti che causerebbero l'effetto opposto, ma non mi aspetto che dati del genere si verifichino nel mondo reale.
Dunk,

Non sono riuscito a vedere se hai specificato a cosa servivano questi dati. Tuttavia, in generale, quando si presentano i propri dati al pubblico specificato, è consigliabile fornire informazioni su come i dati sono stati derivati.
Jon Milliken,

3
Qual è la correlazione dei valori medi intesi a rappresentare? Non è certamente una stima ragionevole della correlazione tra le variabili originali.
Glen_b -Restate Monica

Risposte:


15

Diamo un'occhiata a due vettori, il primo è

    2 6 2 6 2 6 2 6 2 6 2 6

e il secondo essere vettoriale

   6 2 6 2 6 2 6 2 6 2 6 2

Calcolo della correlazione di Pearson che otterrai

cor(a,b)
[1] -1

Tuttavia, se si prende la media delle coppie successive per valori entrambi i vettori sono identici. I vettori identici hanno correlazione 1.

  4 4 4 4 4 4  

Questo semplice esempio illustra un aspetto negativo del tuo metodo.

Modifica : per spiegarlo più in generale: il coefficiente di correlazione viene calcolato nel modo seguente.

E[(XμX)(YμY)]σX σY

XYXμXYμY


1
μσ

Grazie. Questo significa che i miei risultati sono 'gonfiati' di lusingato usando le medie e che è sempre meglio usare le osservazioni senza fare la media?
user2165379

Per il test delle ipotesi dovresti dare un'occhiata ai dati stessi e non alle medie. In altri domini le statistiche descrittive potrebbero essere uno strumento utile. Dovresti anche dare un'occhiata ad altre misure di statistiche descrittive come i quantili (specialmente la mediana) e i momenti più alti (centralizzati), come la varianza, l'asimmetria e la curtosi. Tuttavia nel nostro caso questo non è utile. I vettori a e b hanno le stesse quantili, gli stessi momenti e gli stessi momenti centralizzati.
Ferdi,

1
La media tende ad aumentare le correlazioni rimuovendo la dispersione quasi casuale, ma una media sufficientemente perversa potrebbe spingere le correlazioni verso lo zero.
Nick Cox,

Grazie. Quindi, se la media tende ad aumentare la correlazionea in generale, ciò implica che non è un miglioramento? O è un miglioramento perché la dispersione quasi casuale viene rimossa?
user2165379

10

La media può essere attraente o conveniente. Può anche essere una fonte di inganno, nella peggiore delle ipotesi, quindi segui attentamente anche quando c'è una chiara logica per la media.

1

Ci sono alcune situazioni in cui la media può avere senso. Ad esempio, se le variazioni stagionali sono di scarso o nessun interesse, la media dei valori annuali crea un set di dati ridotto in cui è possibile concentrarsi su tali valori annuali.

In vari campi, i ricercatori potrebbero essere interessati a correlazioni su scale piuttosto diverse, ad esempio tra disoccupazione e criminalità per individui, contee, stati, paesi (sostituire qualunque termine abbia più senso).

L'interesse, e spesso anche una delle principali fonti di problemi di inferenza, è nell'interpretazione di ciò che sta accadendo a scale o livelli diversi. Ad esempio, un'elevata correlazione tra il tasso di disoccupazione e il tasso di criminalità per aree non significa necessariamente che i disoccupati abbiano una maggiore tendenza ad essere criminali; hai bisogno di dati sugli individui per essere chiari su questo. Il conferimento dei dati può essere alquanto imbarazzante in quanto i dati sono disponibili solo su una scala meno interessante, forse per motivi di economia o riservatezza.

Noto anche che molte misure sono in primo luogo spesso medie su intervalli di tempo piccoli e / o intervalli di spazio ridotti, quindi i dati spesso arrivano mediati in ogni caso.


3
Mi associo alla risposta di @ Ferdi nel sottolineare che ci possono essere molti modi per fare la media. Questo crea un'ulteriore fonte di incertezza. La difficoltà è particolarmente acuta nell'aggregare piccole aree a dimensioni maggiori.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.