In che misura la distinzione tra correlazione e causalità è rilevante per Google?


21

Contesto

Una domanda popolare su questo sito è " Cosa sono i peccati statistici comuni? ". Uno dei peccati menzionati sta assumendo che il collegamento "la correlazione implica la causalità ..."

Quindi, nei commenti con 5 voti si suggerisce che: "Google guadagna $ 65 miliardi all'anno senza preoccuparsi della differenza".

A rischio di un'analisi eccessiva di una leggera battuta, ho pensato che questo potesse essere un utile punto di discussione per chiarire la distinzione tra correlazione e causalità e la rilevanza pratica della distinzione; e forse potrebbe evidenziare qualcosa sulla relazione tra apprendimento automatico e la distinzione tra correlazione e causalità.

Suppongo che il commento riguardi le tecnologie che stanno alla base della generazione dei risultati dei motori di ricerca e delle tecnologie di visualizzazione pubblicitaria.

Domanda

  • In che misura la distinzione tra correlazione e causalità è rilevante per la generazione di reddito di Google, forse concentrandosi in particolare sulla generazione di reddito attraverso tecnologie pubblicitarie correlate e risultati di ricerca di qualità?

È divertente, stavo guardando quel commento un po 'prima.
Iteratore

2
Il blog Revolutions ha pubblicato un post la settimana scorsa su come Google utilizza R per rendere più efficace la pubblicità online . Purtroppo non entrano troppo nei dettagli ...
nico,

Risposte:


13

La semplice risposta è che Google (o chiunque) dovrebbe preoccuparsi della distinzione nella misura in cui intende intervenire . La conoscenza causale ti dice degli effetti degli interventi (azioni) in un determinato dominio.

Se, ad esempio, Google desidera aumentare la percentuale di clic sugli annunci, aumentare il numero di utenti di GMail o Google+ o indurre gli utenti a utilizzare Google anziché Bing, devono conoscere gli effetti di potenziali azioni (ad es. Aumentare la dimensione del carattere degli annunci, la promozione di Google+ nelle riviste di stampa o la pubblicità delle differenze tra i risultati di ricerca di Google e Bing, rispettivamente). La correlazione è abbastanza buona da far funzionare bene il motore di ricerca di Google, ma per i loro altri sistemi (e la loro attività in generale) la distinzione spesso conta.

Vale la pena notare che Google (e molte aziende con attività basate sul web) eseguono costantemente esperimenti online. Questo è il modo più semplice e migliore per identificare e stimare le dipendenze causali.


(+1) fintanto che i predittori a) correlano eb) consentono di prevedere correttamente gli esiti futuri, non si dovrebbe preoccuparsi della causalità.
Steffen,

2
Stiamo entrando in un'era di rinascita della ricerca sperimentale nelle scienze comportamentali. Negli anni '50, quasi tutta la statistica era ricerca sperimentale, con applicazioni in agricoltura. Ma intorno agli anni '80, le persone hanno riconosciuto che queste tecniche non sono di grande aiuto con i dati osservativi, che è tutto ciò che puoi fare nella maggior parte delle scienze sociali. Ora, almeno nelle nicchie della ricerca di marketing online, se sei Amazon o Google o Bing, puoi eseguire esperimenti e ottenere la forma più pulita di inferenza causale possibile.
StasK,

@StasK, Considerando le dimensioni del campione che probabilmente stanno affrontando anche con un esperimento "breve", è probabile che producano risultati molto utili. Che tesoro deve essere.
Brandon Bertelsen,

È interessante notare che la struttura dei "gruppi" di Google è davvero molto scarsa. È un po 'come se avessero costruito una struttura di discussione di gruppo che si correla con l'essere buoni, ma non hanno capito cosa rende buona una struttura di discussione di gruppo. Ma questo è un problema comune nel marketing: troppo spesso le funzionalità dei prodotti concorrenti vengono copiate senza comprendere la motivazione sottostante per le funzionalità.
Daniel R Hicks,

1
@StasK: Il mondo reale non è probabilmente l'ideale come fingi qui. Sono d'accordo che gli esperimenti sono un ottimo strumento per fare inferenza causale. Tuttavia, gli esperimenti sollevano anche problemi specifici A volte potrebbe essere meglio fare inferenze causali con uno studio osservazionale piuttosto che con un esperimento. Una critica potrebbe essere in che senso i risultati di esperimenti controllati potrebbero essere generalizzati in un ambiente "reale dal vivo". Alcuni autori chiamano questa "validità esterna".

6

Innanzitutto, è solo una battuta e non è corretto. Google ha molti statistici di grande talento, esperti di recupero di informazioni, linguisti, economisti, alcuni psicologi e altri. Queste persone passano molto tempo a educare molti non statistici sulla differenza tra correlazione e causalità. Dato che si tratta di una grande organizzazione, potrebbero esserci tasche, anche grandi, di ignoranza, ma l'affermazione è decisamente falsa. Inoltre, gran parte di tale istruzione è rivolta ai clienti, in particolare agli inserzionisti.

Risposta più profonda: la differenza è estremamente importante. Basta guardare la classifica dei risultati di ricerca e permettermi di estendere oltre la semplice "correlazione" per includere misure di somiglianza, funzioni di punteggio, ecc. Alcune pagine sono misurate per essere buoni risultati per determinate query. Questi hanno una varietà di funzioni predittive che sono importanti per la loro classifica. Contrariamente a queste buone pagine che sono buoni risultati per le query è un insieme di pagine web che sono risultati molto cattivi per le stesse query. Tuttavia, i creatori di quelle pagine si impegnano molto per farle sembrare buone pagine da un punto di vista numerico, ad esempio corrispondenze di testo, collegamento a Internet e altro ancora. Tuttavia, solo perché queste pagine sono numericamente "simili" alle buone pagine non significa che queste siano, in effetti, buone pagine. Pertanto, Google ha investito e continuerà a investire molti sforzi per determinare quali caratteristiche ragionevoli distinguono le pagine (separate) buone e cattive.

Questa non è abbastanza correlazione e causalità, ma è più profonda di così. Le pagine buone per determinate query possono essere mappate in uno spazio numerico in cui appaiono simili e distinte da molte pagine non pertinenti o non valide, ma solo perché i risultati si trovano nella stessa area dello spazio delle caratteristiche non implica che provengano dallo stesso sottoinsieme "alta qualità" del web.

Risposta più semplice: una prospettiva molto semplice è quella di indirizzare la classifica dei risultati. Il risultato migliore dovrebbe essere il primo, ma solo perché qualcosa viene classificato per primo non significa che sia il risultato migliore. Secondo alcune metriche del punteggio, potresti scoprire che la classifica di Google è correlata a uno standard d'oro delle valutazioni della qualità, ma ciò non significa che la loro classifica implichi che i risultati siano davvero in questo ordine in termini di qualità e pertinenza.

Aggiornamento (terza risposta): col passare del tempo, c'è un altro aspetto che riguarda tutti noi: è che il miglior risultato di Google può essere considerato autorevole, perché è il miglior risultato su Google. Sebbene l'analisi dei collegamenti (ad esempio "PageRank" - un metodo per l'analisi dei collegamenti) sia un tentativo di riflettere l'autorità percepita, nel tempo nuove pagine su un argomento possono semplicemente rafforzare quella struttura di collegamenti collegando il risultato migliore su Google. Una pagina più recente che è più autorevole ha un problema con il vantaggio iniziale rispetto al primo risultato. Poiché Google vuole attualmente fornire la pagina più pertinente , una varietà di fattori, tra cui un cosiddetto fenomeno "ricco-arricchito", sorgono a causa di un effetto implicito della correlazione sulla causalità percepita.

Aggiornamento (quarta risposta): mi sono reso conto (per un commento sotto) che potrebbe essere utile leggere l'allegoria della caverna di Platone per avere un'idea di come interpretare la correlazione e la causalità come risultato di "riflessioni / proiezioni" della realtà e come noi (o le nostre macchine) lo percepiamo. La correlazione, strettamente limitata alla correlazione di Pearson, è troppo limitata come interpretazione della questione dell'associazione incomprensibile (più ampia della semplice correlazione) e del nesso di causalità.


Non sono d'accordo. Se qualcuno abusa dei predittori per creare un rango di pagina artificiale alto, allora il bersaglio implica i predittori, al contrario di ciò che Google intendeva quando si creava l'algoritmo di rango di pagina. Poiché la vera metrica rimane la stessa ("la pagina giusta", a cui il rango di pagina è solo un'approssimazione), i predittori perdono la sua correlazione e quindi devono essere modificati. Quindi Google non si preoccupa del nesso causale relativo alla metrica vera "la pagina giusta", ma a quella approssimativa chiamata page-rank.
Steffen,

Senza offesa, ma sembri un po 'confuso su diverse questioni. "PageRank" è un concetto chiaramente definito ed è solo un predittore. Il problema principale che stai trascurando è il processo industriale coinvolto nella definizione e creazione di un set di formazione e nel soddisfare le aspettative degli utenti. Sfortunatamente, i commenti sono un posto terribile per iniziare una lunga introduzione all'apprendimento automatico applicato.
Iteratore

Intendi dire che nel processo di generazione e valutazione dei predittori da parte di conoscenze esperte vengono generati solo predittori di "causalità"? Fintanto che uno segue un tale processo e non ricorre ad un approccio di prova ed errore, hai ragione, a Google importa;).
Steffen,

Hai ragione. Il problema è che nel tempo diventa immensamente difficile provare a prevedere predittori che riflettono la causalità quando ci sono avversari che ti ostacolano. Se un predittore non ha una sorta di spiegazione causale (perché raramente sono veramente causali in natura), allora è difficile giustificare quando i cattivi si evolvono e confondono quella regione dello spazio predittore.
Iteratore

2
@Brandon: niente scherzi. Questo è meglio esemplificato quando provo a cercare eventi recenti o eventi imminenti. Sempre più frequentemente, devo inserire l'anno corrente o anche l'attuale MM-AAAA (o fare una ricerca avanzata) per ottenere le pagine pertinenti. È un compromesso tra la struttura dei link e la freschezza e Google si sbaglia senza ulteriori aiuti da parte mia. In effetti, questo mi ha portato a Bing alcune volte, solo per irritazione nel tentativo di ignorare le vecchie pagine. Lo stesso vale per SO: le prime risposte sembrano spesso ottenere più voti rispetto alle risposte successive, il che potrebbe essere più corretto. :)
Iteratore

5

Autore della battuta qui.

Il commento è stato in parte ispirato da un discorso di David Mease (presso Google), in cui ha detto, e io parafrasando, le compagnie di assicurazione auto non si preoccupano se essere maschi causa più incidenti, a condizione che siano correlati, devono pagare di più. È, infatti, impossibile cambiare il genere di qualcuno in un esperimento, quindi la causa non potrebbe mai essere dimostrata.

Allo stesso modo, Google non ha davvero bisogno di preoccuparsi se il colore rosso induce qualcuno a fare clic su un annuncio, se è correlato a più clic, può addebitare di più per quell'annuncio.

È stato anche ispirato da questo articolo di Wired: The End of Theory: The Data Deluge rende obsoleto il metodo scientifico . Una citazione:

"La filosofia fondante di Google è che non sappiamo perché questa pagina sia migliore di quella: se le statistiche dei collegamenti in entrata lo dicono, è abbastanza buono."

Ovviamente, Google ha molte persone molto intelligenti che conoscono la differenza tra causalità e correlazione, ma nel loro caso, possono fare un sacco di soldi senza preoccuparsene.


1
Per elaborare ... Come ho già detto, ci sono molte persone su Google che si preoccupano davvero, così come David Mease. (A proposito, non è a Stanford, a meno che non ci siano notizie che mi sono perse; forse hai frequentato il suo corso del 2007?) Ma hai ragione, proprio come molte persone non sanno come funzionano i motori a combustione interna, non influisce la loro capacità di guidare. I bravi ingegneri e ricercatori automobilistici, tuttavia, lo fanno funzionare meglio perché lo fanno. Stessa cosa per gli ingegneri e i ricercatori di Google. Sfortunatamente, quell'articolo di Wired non è la presentazione più articolata della tesi di Norvig.
Iteratore

Grazie Neil per il contesto. Spero non ti dispiaccia usare il tuo commento come ispirazione per una domanda.
Jeromy Anglim,

@jeromy, per niente
Neil McGuigan,

1

Concordo con David : la differenza è importante se si intende intervenire e Google può testare i risultati degli interventi eseguendo esperimenti controllati. (Il programma ottimale di tali esperimenti dipende dal tuo insieme di ipotesi causali, che impari da esperimenti precedenti più dati osservativi , quindi le correlazioni sono ancora utili!)

C'è un secondo motivo per cui Google potrebbe voler imparare le relazioni causali. Le relazioni causali sono più solide agli interventi degli altri giocatori. Gli interventi tendono ad essere locali, quindi potrebbero cambiare una parte della rete causale ma lasciare invariati tutti gli altri meccanismi causali. Al contrario, le relazioni predittive possono fallire se si rompe un nesso causale distante. Internet è in continua evoluzione e Google dovrebbe essere interessato a quali funzionalità dell'ambiente online sono più robuste rispetto a tali cambiamenti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.