Se la correlazione non implica la causalità, qual è il valore di conoscere la correlazione tra due variabili?


11

Diciamo che a un imprenditore (o al marketing o a chiunque capisca un diagramma a dispersione) viene mostrato un diagramma a dispersione di due variabili: numero di annunci pubblicitari vs numero di vendite di prodotti al mese negli ultimi 5 anni (o un'altra scala temporale in modo che tu avere più campioni. Ho appena inventato questo).

Ora vede il diagramma a dispersione e gli viene detto che il coefficiente di correlazione (corr) è:

  1. 1 o
  2. 0,5 o
  3. 0,11 o
  4. 0 o
  5. -0,75 o
  6. -1

Fondamentalmente qualsiasi valore valido per corr

Domanda: cosa significa questo anche per un decisore o qualsiasi consumatore del diagramma a dispersione? Quali decisioni si possono prendere solo in base a questo?

Vale a dire: a che serve vedere la correlazione tra due variabili qualsiasi e cosa si può fare con tali informazioni in isolamento? È solo per vedere cosa considerare e non considerare per l'inclusione nell'analisi di regressione o c'è un uso più pratico?

Solo curioso, ho sempre lavorato con questa tecnica, ma mi è stato detto che la correlazione di per sé non è di grande utilità - quindi quale "è" l'uso?

Risposte:


12

Alcuni pensieri:

  • Il vecchio canard sulla correlazione non essendo causalità è solo metà della storia. La correlazione può non essere causalità, ma una qualche forma di associazione tra le due variabili è un passo necessario lungo il percorso per mostrare la causalità, e la correlazione può aiutare a dimostrarlo.
  • Aiuta a sottolineare le tendenze. Mostralo a un imprenditore e potrebbero dire "Sì, ha senso, vedi Widget X e Widget Y finiscono per essere utilizzati da un particolare gruppo di persone, anche se non sono realmente correlati. Oppure potrebbero dire "Questo è ... strano", a quel punto hai richiesto ulteriori indagini.
  • Guardate in questo modo. La correlazione è uno strumento. Un martello, da solo, non è poi così utile. Certamente non costruirà una casa da sola. Ma hai mai provato a costruire una casa senza un martello?

5
Nel tuo primo proiettile dici che la correlazione è una condizione necessaria per la causalità - non è vero. Se c'è una relazione non monotonica tra due variabili, allora possono essere non correlate - questo non preclude la causalità.
Macro,

@Macro - true, e modificato
Fomite

@Macro Vero, ma in pratica puoi applicare una funzione alla tua variabile per rendere monotona la relazione da testare. se non conosci questa funzione, allora ... non sai molto di quello che stai cercando
RockScience

@EpiGrad: supponi che il grafico di correlazione XY di due variabili sembri uno smiley felice (o qualsiasi altra forma in sé). Il coefficiente di correlazione sarebbe in realtà piuttosto piccolo, ma ci sarebbe sicuramente qualche interrelazione, giusto? Come / cosa si dovrebbe fare in questo caso?
Dottorato di ricerca

@Nupul Un'esplorazione un po 'più complicata di XY oltre la linearità.
Fomite,

7

Guardalo da una prospettiva di gioco. Diciamo che sappiamo che in media le persone che indossano stivali da lavoro per lavorare avranno 1,5 infortuni sul lavoro e le persone che indossano mocassini avranno in media 0,05 infortuni. Oppure, forse le probabilità di un infortunio per una persona che indossa stivali da lavoro sono 0,85, e le possibilità di infortunio per una persona che indossa mocassini è 0,5.

Se seleziono casualmente una persona dalla popolazione, e ti dico che la persona indossa stivali da lavoro, e ti offro una scommessa pari sul fatto che abbiano avuto un infortunio sul lavoro l'anno scorso, faresti la scommessa? Bene, scommetterei se dovessi essere in grado di scommettere sul lato che hanno avuto un infortunio .. L'85% delle volte vincerai e otterrai anche soldi.

Il punto è, sapendo che un'informazione ci fornisce informazioni sulla probabilità che si verifichino o meno infortuni sul lavoro .. Le scarpe non hanno nulla a che fare con esso, infatti, i stivali da lavoro impediscono lesioni .. Ma la variabile confondente qui è il tipo di lavoro che accompagna i workboot .. E forse altre cose come la persona potrebbero essere più sconsiderate.


6

La frase "correlazione non implica causalità" viene sovraesposta. (Come scrisse Cohen, "è un suggerimento terribilmente grande".) Abbiamo battuto questa frase negli studenti a causa di una propensione intrinseca alla mente umana. Quando senti "il tasso di criminalità è correlato al tasso di povertà" o qualcosa del genere, non puoi fare a meno di pensare che ciò significhi che la povertà provoca il crimine. È naturale per le persone assumerlo, perché è così che funziona la mente. Usiamo la frase più e più volte nella speranza di contrastarla. Tuttavia, una volta assorbita l'idea, la frase perde gran parte del suo valore ed è tempo di passare a una comprensione più sofisticata.

Quando esiste una correlazione tra due variabili, ci sono due possibilità: è tutta una coincidenza o c'è qualche modello causale al lavoro. Definire una coincidenza nel mondo come una coincidenza è un quadro esplicativo terribile e dovrebbe probabilmente essere la tua ultima risorsa. Ciò lascia la causalità. Il problema è che non conosciamo la natura di quel modello causale. Potrebbe anche essere che la povertà causi criminalità, ma potrebbe anche essere che la criminalità causi povertà (ad esempio, le persone non vogliono vivere in un'area ad alto crimine, quindi si spostano e cadono i valori delle proprietà, ecc.). Potrebbe anche essere che ci sia una terza variabile o un gruppo di variabili che causano sia il crimine che la povertà, ma che in realtà non c'è direttolegame causale tra criminalità e povertà (noto come modello di "causa comune"). Ciò è particolarmente pernicioso, poiché, in un modello statistico, tutte le altre fonti di variazione sono compresse nel termine di errore della variabile dipendente. Di conseguenza, la variabile indipendente è correlata con (causata da) il termine di errore, portando al problema dell'endogeneità . Questi problemi sono molto difficili e non dovrebbero essere presi alla leggera. Tuttavia, anche in questo scenario, è importante riconoscere che sul lavoro esiste una reale causalità.

In breve, quando vedi una correlazione, dovresti pensare che probabilmente ci sia una sorta di causalità in gioco da qualche parte , ma che non conosci la natura di quel modello causale.


4

Pensavo di essere a conoscenza di queste cose, ma è stato solo il mese scorso che ho cercato "implicitamente" nel dizionario e ho scoperto che aveva due significati sorprendentemente diversi. 1. Suggerisci e 2. Necessitate. (!) La correlazione raramente richiede una causalità, ma certamente può suggerirla. Come sottolinea @EpiGrad, è una condizione necessaria ma non sufficiente per stabilire la causalità.

Col passare del tempo si spera di trovare una via di mezzo tra vedere la correlazione come la fine di tutto e come completamente inutile. E si tiene conto delle conoscenze specifiche per argomento / dominio / contenuto nell'interpretazione dei risultati di correlazione. Poche persone metterebbero in dubbio l'esistenza di almeno un nesso causale quando vedono i risultati di pubblicità-vendita che descrivi. Ma è sempre bene rimanere aperti ad altre possibilità, altre variabili che potrebbero almeno in parte spiegare la relazione osservata. Letture su variabili confondenti, validità e simili pagano con grandi dividendi. Ad esempio, il vecchio classico Quasi-Experimentation di Cook e Campbell ha una buona sezione sulla validità e le minacce alla validità.


1
Come ho sottolineato a @EpiGrad, la correlazione non è una condizione necessaria per la causalità. Esiste una concezione diffusa nell'analisi dei dati secondo cui una relazione tra variabili si riferisce sempre a una relazione monotonica, che viene tacitamente assunta suggerendo che la correlazione è una condizione necessaria per la causalità.
Macro,

1
Giusto. Diciamo che "associazione statistica" è quindi necessaria.
rolando2,

2

Un coefficiente di correlazione, come altre misure di associazione, è utile se si desidera sapere quanto sapere il valore di X è informativo sul valore di Y. Ciò è diverso dal sapere se se si dovesse impostare X su un valore particolare, cosa valore di Y che otterresti (che è l'essenza di un'interpretazione controfattuale della causalità).

Tuttavia, in molti contesti (ad es. Previsione) le inferenze basate sulla correlazione sarebbero preziose a sé stanti. I denti gialli sono correlati al carcinoma polmonare (poiché entrambi sono probabilisticamente causati dal cancro). Non c'è causalità tra i due: i denti sbiancanti non curerebbero il cancro ai polmoni. Ma se hai bisogno di un test di screening rapido per chi è probabile che abbia un cancro ai polmoni, controllare i denti gialli potrebbe essere un buon primo passo.

È una domanda diversa se il coefficiente di correlazione sia la migliore misura disponibile dell'associazione, ma penso che la domanda riguardi più qual è il valore della conoscenza dell'associazione non causale.

A proposito, non solo la correlazione non è una dimostrazione sufficiente di causalità, ma non è neppure necessaria. Due variabili possono essere causalmente correlate ma non mostrano alcuna correlazione in alcun particolare set di dati (ad esempio a causa di errori di selezione o confondenti).


1

la correlazione di per sé non è molto utile - quindi quale "È" l'uso?

Vorrei essere in disaccordo con questa frase, la correlazione fa sapere il livello di associazione tra 2 variabili. Quindi, è utile quando si cerca di spiegare la relazione tra tali variabili. D'altra parte, (come ha scritto Macro) la correlazione non è una condizione necessaria per la causalità, tuttavia, è sufficiente per spiegare il livello di associazione. Inoltre, puoi testare l'indipendenza delle variabili, ma la correlazione può darti un'altra informazione utile, il coefficiente di determinazione.

Tuttavia, l'analista deve conoscere il dominio per essere in grado di spiegare il tipo di relazione.


Non sono sicuro di cosa intendi con questo:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
Dottorato di ricerca

Voglio dire: "puoi testare l'indipendenza delle variabili" ma comunque, anche quando non testerai l'indipendenza, le informazioni di correlazione e il coef. di determinazione sono "utili" per comprendere e spiegare il tipo di relazione tra le variabili.
Jose Zubcoff,

1

Penso che anche la raccolta di dati e la progettazione di studi possano svolgere un ruolo nel rispondere a questa domanda. Non progetterai uno studio e non raccoglierai una serie di dati completamente irrilevanti l'uno con l'altro, anche negli studi osservazionali. Pertanto, "la correlazione non implica la causalità" può essere giustificata. Anche se non si tratta di una relazione causale, potrebbe esserci un'associazione correlata.

Tuttavia, se stai parlando di due set di dati completamente irrilevanti, ma vuoi comunque usare la correlazione per spiegare l'associazione e la causalità, potrebbe essere inappropriato. Ad esempio, se due set di dati hanno tutti tendenze al ribasso, ad esempio le vendite di gelati e il numero di matrimoni, il coefficiente di correlazione potrebbe essere molto elevato. Ma è necessario significare un'associazione?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.