Innanzitutto, è solo una battuta e non è corretto. Google ha molti statistici di grande talento, esperti di recupero di informazioni, linguisti, economisti, alcuni psicologi e altri. Queste persone passano molto tempo a educare molti non statistici sulla differenza tra correlazione e causalità. Dato che si tratta di una grande organizzazione, potrebbero esserci tasche, anche grandi, di ignoranza, ma l'affermazione è decisamente falsa. Inoltre, gran parte di tale istruzione è rivolta ai clienti, in particolare agli inserzionisti.
Risposta più profonda: la differenza è estremamente importante. Basta guardare la classifica dei risultati di ricerca e permettermi di estendere oltre la semplice "correlazione" per includere misure di somiglianza, funzioni di punteggio, ecc. Alcune pagine sono misurate per essere buoni risultati per determinate query. Questi hanno una varietà di funzioni predittive che sono importanti per la loro classifica. Contrariamente a queste buone pagine che sono buoni risultati per le query è un insieme di pagine web che sono risultati molto cattivi per le stesse query. Tuttavia, i creatori di quelle pagine si impegnano molto per farle sembrare buone pagine da un punto di vista numerico, ad esempio corrispondenze di testo, collegamento a Internet e altro ancora. Tuttavia, solo perché queste pagine sono numericamente "simili" alle buone pagine non significa che queste siano, in effetti, buone pagine. Pertanto, Google ha investito e continuerà a investire molti sforzi per determinare quali caratteristiche ragionevoli distinguono le pagine (separate) buone e cattive.
Questa non è abbastanza correlazione e causalità, ma è più profonda di così. Le pagine buone per determinate query possono essere mappate in uno spazio numerico in cui appaiono simili e distinte da molte pagine non pertinenti o non valide, ma solo perché i risultati si trovano nella stessa area dello spazio delle caratteristiche non implica che provengano dallo stesso sottoinsieme "alta qualità" del web.
Risposta più semplice: una prospettiva molto semplice è quella di indirizzare la classifica dei risultati. Il risultato migliore dovrebbe essere il primo, ma solo perché qualcosa viene classificato per primo non significa che sia il risultato migliore. Secondo alcune metriche del punteggio, potresti scoprire che la classifica di Google è correlata a uno standard d'oro delle valutazioni della qualità, ma ciò non significa che la loro classifica implichi che i risultati siano davvero in questo ordine in termini di qualità e pertinenza.
Aggiornamento (terza risposta): col passare del tempo, c'è un altro aspetto che riguarda tutti noi: è che il miglior risultato di Google può essere considerato autorevole, perché è il miglior risultato su Google. Sebbene l'analisi dei collegamenti (ad esempio "PageRank" - un metodo per l'analisi dei collegamenti) sia un tentativo di riflettere l'autorità percepita, nel tempo nuove pagine su un argomento possono semplicemente rafforzare quella struttura di collegamenti collegando il risultato migliore su Google. Una pagina più recente che è più autorevole ha un problema con il vantaggio iniziale rispetto al primo risultato. Poiché Google vuole attualmente fornire la pagina più pertinente , una varietà di fattori, tra cui un cosiddetto fenomeno "ricco-arricchito", sorgono a causa di un effetto implicito della correlazione sulla causalità percepita.
Aggiornamento (quarta risposta): mi sono reso conto (per un commento sotto) che potrebbe essere utile leggere l'allegoria della caverna di Platone per avere un'idea di come interpretare la correlazione e la causalità come risultato di "riflessioni / proiezioni" della realtà e come noi (o le nostre macchine) lo percepiamo. La correlazione, strettamente limitata alla correlazione di Pearson, è troppo limitata come interpretazione della questione dell'associazione incomprensibile (più ampia della semplice correlazione) e del nesso di causalità.