Le prove del riscaldamento globale provocato dall'uomo colpiscono il "gold standard": come hanno fatto?


35

Questo messaggio nell'articolo di Reuter del 25.02.2019 è attualmente in tutte le notizie:

Prove per il riscaldamento globale causato dall'uomo colpiscono il "gold standard"

[Gli scienziati] hanno affermato che le attività umane che aumentavano il calore sulla superficie terrestre avevano raggiunto un livello di "cinque sigma", un indicatore statistico che significa che c'è solo una possibilità su un milione che il segnale appaia se ci fosse nessun riscaldamento.

Credo che questo si riferisca a questo articolo "Celebrare l'anniversario di tre eventi chiave nella scienza del cambiamento climatico" che contiene una trama, che è mostrata schematicamente di seguito (È uno schizzo perché non sono riuscito a trovare un'immagine open source per un originale, simile le immagini gratuite si trovano qui ). Un altro articolo dello stesso gruppo di ricerca, che sembra essere una fonte più originale, è qui (ma utilizza un significato dell'1% anziché ).5σ


La trama presenta misurazioni di tre diversi gruppi di ricerca: Sistemi di telerilevamento, Centro per applicazioni e ricerca satellitari e Università dell'Alabama a Huntsville.

Il grafico mostra tre curve in aumento del rapporto segnale rumore in funzione della lunghezza del trend.

segnale antropogenico

Quindi in qualche modo gli scienziati hanno misurato un segnale antropogenico del riscaldamento globale (o dei cambiamenti climatici?) A livello , che è apparentemente uno standard scientifico di prova .5σ

Per me tale grafico, che ha un alto livello di astrazione, solleva molte domande , e in generale mi chiedo la domanda "Come hanno fatto?" . Come spieghiamo questo esperimento in parole semplici (ma non così astratte) e spieghiamo anche il significato del livello ?5σ

Faccio questa domanda qui perché non voglio una discussione sul clima. Voglio invece risposte sul contenuto statistico e soprattutto chiarire il significato di tale affermazione che sta usando / rivendicando .5σ


Qual è l'ipotesi nulla? Come hanno avviato l'esperimento per ottenere un segnale antropogenico ? Qual è la dimensione dell'effetto del segnale? È solo un piccolo segnale e lo misuriamo solo ora perché il rumore sta diminuendo o il segnale sta aumentando? Che tipo di ipotesi vengono fatte per creare il modello statistico in base al quale determinano l'attraversamento di una soglia di 5 sigma (indipendenza, effetti casuali, ecc ...)? Perché le tre curve per i diversi gruppi di ricerca sono diverse, hanno un rumore diverso o hanno segnali diversi e, nel caso di quest'ultimo, cosa significa questo riguardo all'interpretazione della probabilità e della validità esterna?


2
@MattF. La mia aspettativa è che sarà possibile fare una semplice esposizione che spieghi il concetto statistico della soglia che è stato usato qui (almeno i fisici delle particelle ad alta energia, che usano anche discrepanze / effetti per descrivere il segnale a il rapporto rumore è in termini di eventi, non ho problemi con questo). Con semplice intendo qualcosa sottratto al gergo della climatologia, ma abbastanza sofisticato da contenere l'essenza. Diciamo, sarebbe qualcosa di scritto per statistici e matematici professionisti in modo che possano capire il qui. 5σσ5σ
Sesto Empirico

1
Sottolineare il contrasto con la fisica dell'alta energia: per questo campo gli statistici possono capire che il livello è sostanzialmente insignificante e la barra è impostata in alto perché il calcolo è tecnicamente sbagliato (1. l'effetto cerca altrove 2. ipotesi errate sull'errore distribuzione ignorando gli effetti sistematici 3. facendo implicitamente un'analisi bayesiana, "affermazioni straordinarie richiedono prove straordinarie"). 5σ
Sesto Empirico

1
La domanda è quanto questi tre effetti siano presenti nel caso di questo articolo sul riscaldamento globale creato dall'uomo. Penso che sia importante chiarire ciò, demistificare le affermazioni scientifiche. È così comune semplicemente lanciare alcuni numeri in una discussione per farlo sembrare rigoroso e la maggior parte delle persone smette di metterlo in discussione.
Sesto Empirico

2
Hai visto questa critica: judithcurry.com/2019/03/01/… ?
Robert Long

2
Per coincidenza stavo leggendo questi articoli solo pochi giorni fa, e ora ho notato la tua nuova generosità. Potrei scrivere qualcosa adesso.
ameba dice di reintegrare Monica il

Risposte:


15

Non si tratta sempre di test statistici. Può anche riguardare la teoria dell'informazione.

Il termine 5σ è quello che dice che è: un rapporto tra "segnale" e "rumore". Nel test di ipotesi abbiamo una stima di un parametro di distribuzione e un errore standard della stima. Il primo è un "segnale", il secondo è "rumore", e il rapporto tra le statistiche e il suo errore standard sono le statistiche z, le statistiche t, le statistiche F, e basta.

Tuttavia, il rapporto segnale-rumore è utile ovunque in cui riceviamo / percepiamo alcune informazioni attraverso un certo rumore. Come spiega il link citato

Il rapporto segnale-rumore (spesso abbreviato SNR o S / N) è una misura utilizzata nella scienza e nell'ingegneria per quantificare quanto il segnale sia corrotto dal rumore.

Nel nostro caso il "segnale" è la variazione effettiva misurata della temperatura di alcuni strati dell'atmosfera e il "rumore" sono previsioni del cambiamento dalle simulazioni senza le influenze antropogeniche note. Accade così che queste simulazioni prevedessero una temperatura più o meno stazionaria con una certa deviazione standard σ.

Ora torniamo alle statistiche. Tutte le statistiche di test (z, t, F) sono i rapporti della stima rispetto al suo errore standard. Quindi, quando noi statistici sentiamo qualcosa come S / N, pensiamo a una z-statistica e la dotiamo della probabilità. I climatologi ovviamente non lo fanno (non c'è alcuna menzione della probabilità da nessuna parte nell'articolo ). Scoprono semplicemente che il cambiamento è "approssimativamente da tre a otto" volte più grande del previsto, il rapporto S / N va da 3σ a 8σ.

Ciò che l' articolo riporta è che hanno fatto due tipi di simulazioni: uno con le influenze antropogeniche note incluse nel modello e gli altri con le influenze antropogeniche note escluse. Le prime simulazioni erano simili ai dati satellitari effettivi misurati, mentre la seconda era molto lontana. Se questo è probabile o no, non lo dicono e ovviamente non importa.

Per rispondere ad altre domande. Non hanno fatto esperimenti, hanno fatto simulazioni secondo i loro modelli. Quindi non esiste un'ipotesi nulla esplicita, tranne quella ovvia, secondo cui il cambiamento è simile al previsto (S / N è 1).

La dimensione dell'effetto del segnale è una differenza tra i dati effettivi e le simulazioni. È un segnale 5 volte più grande del previsto (cinque volte la normale variabilità delle temperature). Sembra che il rumore stia diminuendo a causa della quantità e forse della precisione delle misurazioni.

Contrariamente alle nostre aspettative da parte dei "veri scienziati", non esiste un modello statistico di cui si possa parlare, quindi la domanda sulle ipotesi fatte è vacua. L'unico presupposto è che i loro modelli consentano loro di prevedere il clima. Ciò è valido quanto dire che i modelli utilizzati per le previsioni meteorologiche sono solidi.

Ci sono molto più di tre curve. Sono i risultati della simulazione di diversi modelli. Devono semplicemente essere diversi. E sì, hanno un rumore diverso. Il segnale, per quanto diverso, sono diversi insiemi di misurazioni, che hanno il loro errore di misurazione e dovrebbero anche essere diversi. Cosa significa riguardo all'interpretazione? L'interpretazione della probabilità dell'S / N non è buona. Tuttavia, la validità esterna dei risultati è solida. Affermano semplicemente che i cambiamenti climatici nel periodo dal 1979 al 2011 sono paragonabili alle simulazioni quando le influenze antropogeniche conosciute sono spiegate e circa cinque volte più grandi di quelle calcolate dalla simulazione quando i fattori antropogenici noti sono esclusi dal modello.

Quindi è rimasta una domanda. Se i climatologi chiedessero agli statistici di creare un modello, quale dovrebbe essere? Secondo me qualcosa nella linea del moto browniano.


Quindi, cosa costituisce il "segnale", qual è la natura del "rumore" e a quale processo invisibile possiamo attribuirlo?
Josh

1
Sory @Josh, ho prematuramente premuto il pulsante di invio. Ora puoi leggere la mia risposta completa. Più o meno, il "segnale" sono le misurazioni effettive e il "rumore" sono i risultati delle simulazioni quando i fattori antropogenici noti sono esclusi dal modello. E secondo me questo è molto poco statistico ...
Nino Rode il

1
In secondo luogo, ciò che ottengo dal tuo post è che la statistica S / N è determinata dal segnale: la differenza tra due modelli teorici (effetto umano rispetto alla linea di base) e il rumore: la deviazione all'interno di quei modelli teorici. Ma questo può essere enormemente influenzato da effetti sistematici. La distribuzione degli effetti casuali non è ben determinata semplicemente calcolando la media della varianza nelle simulazioni del monte carlo (vedi la particella di Vivianonium). Se si verifica un errore sistematico, è possibile aumentare la discrepanza di volendo semplicemente raccogliendo più dati. nσ
Sesto Empirico

3
@NinoRode Forse mi manca qualcosa, ma dal momento che il modello "noise" senza influenze antropogeniche è evidentemente sbagliato a causa del fatto che la temperatura media è aumentata in base a misurazioni empiriche , in che modo quel modello fornisce una base di riferimento rilevante? Poiché è inteso che le temperature oscillano a causa di processi naturali ( en.wikipedia.org/wiki/Little_Ice_Age ) oltre a quelli antropogenici, qual è la base per supporre che il modello "noise" dovrebbe avere un aumento della temperatura medio-zero il periodo di analisi?
Josh

1
@Scott, il problema con il fumetto intelligente è che non viene mostrato alcun rumore attraverso le serie temporali perché le misurazioni probabilmente non sono abbastanza raffinate da determinare quale fosse la temperatura in un certo secolo, per non parlare di un anno specifico. Quindi sembra liscio e graduale fino all'avvento dei moderni dispositivi di misurazione. Nella meccanica dei fluidi sarebbe come confrontare un'osservazione istantanea di un campo di velocità con uno mediato da Reynolds; non è un confronto appropriato. A meno che tu non pensi davvero che ci sia stata essenzialmente una volatilità pari a zero nelle temperature globali fino alla nascita di Greta Thunberg. :)
Josh,

11

Avvertenza: NON sono un esperto di climatologia, questo non è il mio campo. Per favore, tieni a mente questo. Correzioni benvenute.


La figura a cui ti riferisci proviene da un recente articolo Santer et al. 2019, Celebrando l'anniversario di tre eventi chiave nella scienza del cambiamento climatico da Nature Climate Change . Non è un documento di ricerca, ma un breve commento. Questa figura è un aggiornamento semplificato di una figura simile da un precedente articolo scientifico degli stessi autori, Santer et al. 2018, Influenza umana sul ciclo stagionale della temperatura troposferica . Ecco la cifra del 2019:

inserisci qui la descrizione dell'immagine

Ed ecco la figura del 2018; il pannello A corrisponde alla cifra del 2019:

inserisci qui la descrizione dell'immagine

Qui proverò a spiegare l'analisi statistica alla base di quest'ultima cifra (tutti e quattro i pannelli). Il documento di Science è di libero accesso e abbastanza leggibile; i dettagli statistici sono, come al solito, nascosti nei Materiali Supplementari. Prima di discutere le statistiche in quanto tali, si devono dire alcune parole sui dati osservativi e sulle simulazioni (modelli climatici) qui utilizzati.


1. Dati

Le abbreviazioni RSS, UAH e STAR si riferiscono a ricostruzioni della temperatura troposferica dalle misurazioni satellitari. La temperatura troposferica è stata monitorata dal 1979 usando i satelliti meteorologici: vedi Wikipedia sulle misurazioni della temperatura MSU . Sfortunatamente, i satelliti non misurano direttamente la temperatura; misurano qualcos'altro, da cui si può dedurre la temperatura. Inoltre, sono noti per soffrire di vari pregiudizi dipendenti dal tempo e problemi di calibrazione. Ciò rende difficile ricostruire la temperatura effettiva. Numerosi gruppi di ricerca eseguono questa ricostruzione, seguendo metodologie un po 'diverse, e ottenendo risultati finali leggermente diversi. RSS, UAH e STAR sono queste ricostruzioni. Per citare Wikipedia,

I satelliti non misurano la temperatura. Misurano le radiazioni in varie bande di lunghezze d'onda, che devono quindi essere matematicamente invertite per ottenere inferenze indirette della temperatura. I profili di temperatura risultanti dipendono dai dettagli dei metodi utilizzati per ottenere le temperature dalle radiazioni. Di conseguenza, diversi gruppi che hanno analizzato i dati satellitari hanno ottenuto andamenti della temperatura diversi. Tra questi gruppi ci sono Remote Sensing Systems (RSS) e l'Università dell'Alabama a Huntsville (UAH). La serie di satelliti non è completamente omogenea - il record è costruito da una serie di satelliti con strumentazione simile ma non identica. I sensori si deteriorano nel tempo e sono necessarie correzioni per la deriva dei satelliti in orbita.

Si discute molto su quale ricostruzione sia più affidabile. Ogni gruppo aggiorna i propri algoritmi di tanto in tanto, modificando l'intera serie storica ricostruita. Ecco perché, ad esempio, RSS v3.3 differisce da RSS v4.0 nella figura sopra. Nel complesso, AFAIK è ben accettato nel campo che le stime della temperatura globale della superficie sono più precise delle misurazioni satellitari. In ogni caso, ciò che conta per questa domanda, è che ci sono diverse stime disponibili della temperatura troposferica spazialmente risolta, dal 1979 ad oggi - cioè in funzione di latitudine, longitudine e tempo.

Indichiamo tale stima con .T(x,t)

2. Modelli

Esistono vari modelli climatici che possono essere eseguiti per simulare la temperatura troposferica (anche in funzione di latitudine, longitudine e tempo). Questi modelli prendono come input la concentrazione di CO2, l'attività vulcanica, l'irradiazione solare, la concentrazione di aerosol e varie altre influenze esterne e producono la temperatura come output. Questi modelli possono essere eseguiti per lo stesso periodo di tempo (1979 - ora), utilizzando le effettive influenze esterne misurate. È quindi possibile calcolare la media degli output per ottenere un output medio del modello.

È anche possibile eseguire questi modelli senza immettere i fattori antropogenici (gas a effetto serra, aerosol, ecc.), Per avere un'idea delle previsioni del modello non antropogenico. Si noti che tutti gli altri fattori (solare / vulcanico / ecc.) Fluttuano attorno ai loro valori medi, quindi l'output del modello non antropogenico è stazionario per costruzione. In altre parole, i modelli non consentono al clima di cambiare naturalmente, senza alcuna causa esterna specifica.

Indichiamo il risultato medio del modello antropogenico per e il risultato medio del modello non antropogenico per .M(x,t)N(x,t)

3. Impronte digitali e statisticaz

Ora possiamo iniziare a parlare di statistiche. L'idea generale è di vedere quanto sia simile la temperatura troposferica misurata all'output del modello antropogenico , rispetto all'output del modello non antropogenico . Si può quantificare la somiglianza in modi diversi, corrispondenti a diverse "impronte digitali" del riscaldamento globale antropogenico.T(x,t)M(x,t)N(x,t)

Gli autori considerano quattro diverse impronte digitali (corrispondenti ai quattro pannelli della figura sopra). In ogni caso si convertono le tre funzioni definite sopra in valori annuali , , e , dove rilevamenti anni dal 1979 fino al 2019. Ecco i quattro diversi valori annuali che usano:T(x,i)M(x,i)N(x,i)i

  1. Media annuale: semplicemente una temperatura media per tutto l'anno.
  2. Ciclo stagionale annuale: la temperatura estiva meno la temperatura invernale.
  3. Media annua con media globale sottratta: uguale a (1) ma sottraendo la media globale per ogni anno in tutto il mondo, ovvero attraverso . Il risultato ha zero medio per ogni .xi
  4. Ciclo annuale annuale con media globale sottratta: lo stesso di (2) ma sottraendo nuovamente la media globale.

Per ognuna di queste quattro analisi, gli autori prendono la corrispondente , eseguono la PCA attraverso i punti temporali e ottengono il primo autovettore . È fondamentalmente un modello 2D di massimo cambiamento della quantità di interesse secondo il modello antropogenico.M(x,i)F(x)

Quindi proiettano i valori osservati su questo modello , ovvero calcolano e trovare la pendenza della serie storica risultante. Sarà il numeratore dello statistico ("rapporto segnale-rumore" nelle figure).T(x,i)F(x)

Z(i)=xT(x,i)F(x),
βz

Per calcolare il denominatore, usano un modello non antropogenico invece dei valori effettivamente osservati, ovvero calcola e trova di nuovo la sua pendenza . Per ottenere la distribuzione nulla delle pendenze, eseguono i modelli non antropogenici per 200 anni, troncano le uscite in blocchi di 30 anni e ripetono l'analisi. La deviazione standard dei costituisce il denominatore dello -statistic:

W(i)=xN(x,i)F(x),
βnoiseβnoisez

z=βVar1/2[βnoise].

Quello che vedi nei pannelli A - D della figura sopra sono questi valori per i diversi anni finali dell'analisi.z

L'ipotesi nulla qui è che la temperatura fluttua sotto l'influenza di ingressi fissi solari / vulcanici / ecc. Senza alcuna deriva. I valori elevati di indicano che le temperature troposferiche osservate non sono coerenti con questa ipotesi nulla.z

4. Alcuni commenti

La prima impronta digitale (pannello A) è, IMHO, la più banale. Significa semplicemente che le temperature osservate crescono monotonicamente mentre le temperature sotto l'ipotesi nulla non lo fanno. Non credo che per giungere a questa conclusione sia necessario questo complesso macchinario. Le serie temporali di temperatura troposferica inferiore media globale (variante RSS) si presentano così :

inserisci qui la descrizione dell'immagine

e chiaramente c'è una tendenza molto significativa qui. Non credo che uno abbia bisogno di modelli per vederlo.

L'impronta digitale nel pannello B è in qualche modo più interessante. Qui viene sottratta la media globale, quindi i valori non sono guidati dall'aumento della temperatura, ma invece dai modelli spaziali del cambiamento di temperatura. In effetti, è noto che l'emisfero nord si riscalda più velocemente di quello meridionale (puoi confrontare gli emisferi qui: http://images.remss.com/msu/msu_time_series.html ), e questo è anche ciò che modella i modelli climatici produzione. Il pannello B è ampiamente spiegato da questa differenza interemisferica.z

L'impronta digitale nel pannello C è probabilmente ancora più interessante ed è stata al centro dell'attenzione di Santer et al. Articolo del 2018 (ricorda il titolo: "L'influenza umana sul ciclo stagionale della temperatura troposferica", enfasi aggiunta). Come mostrato nella Figura 2 nel documento, i modelli prevedono che l'ampiezza del ciclo stagionale dovrebbe aumentare a metà latitudine di entrambi gli emisferi (e diminuire altrove, in particolare nella regione dei monsoni indiana). Questo è effettivamente ciò che accade nei dati osservati, producendo valori elevati nel pannello C. Il pannello D è simile a C perché qui l'effetto non è dovuto all'aumento globale ma a causa del modello geografico specifico.z


PS Le critiche specifiche su judithcurry.com che hai collegato sopra mi sembrano piuttosto superficiali. Sollevano quattro punti. Il primo è che questi grafici mostrano solo la statistica ma non la dimensione dell'effetto; tuttavia, aprendo Santer et al. 2018 uno troverà tutte le altre figure che mostrano chiaramente i valori di pendenza effettivi che è la dimensione dell'effetto di interesse. Il secondo che non sono riuscito a capire; Sospetto che sia una confusione da parte loro. Il terzo riguarda quanto sia significativa l'ipotesi nulla; questo è abbastanza giusto (ma off-topic su CrossValidated). L'ultimo sviluppa alcuni argomenti sulle serie temporali autocorrelate ma non vedo come si applica al calcolo di cui sopra.z


2
(+1) Questa è un'ottima risposta! Se non ti dispiace: potresti espandere il passaggio "PCA attraverso punti temporali"? Non capisco il pensiero dietro a fare un PCA lì invece di analizzare ogni dimensione separatamente.
mkt - Ripristina Monica l'

+1 Questa è una spiegazione meravigliosa. Molto vicino a quello che mi aspettavo (non sapevo davvero cosa aspettarmi in realtà e la mia domanda era vaga) e degna di generosità (la lascerò fino alla fine per attirare l'attenzione). Dovrò leggere la sezione delle impronte digitali ancora qualche volta e farla sobbollire per un po 'nel mio cervello, desidero ancora un po' più di intuizione e una migliore comprensione dietro il e la connessione al rumore nei dati e quale principio di probabilità sottostante sta causando questo (nella fisica delle particelle ad alta energia questo è più ovvio). Ma questa risposta mi aiuterà a sufficienza. βnoise
Sesto Empirico

1
@mkt Sono sicuro che ci sono molti modi diversi per fare un'analisi simile. Questo non è il mio campo e non saprei perché gli autori abbiano fatto queste particolari scelte di analisi. Detto questo, la PCA riduce ciò che ho chiamato a , cioè per rimuovere la dipendenza dal tempo. Questo perché vogliono proiettare i valori osservati in ogni anno (quello che ho chiamato ) su questa . A tal fine, dovrebbe essere indipendente dal tempo. Sospetto che invece di fare PCA, avrebbero potuto usare o la media negli ultimi anni. Ma perché non PCA. F ( x ) T ( x , i ) F ( x ) N ( x , 2019 )N(x,i)F(x)T(x,i)F(x)N(x,2019)
ameba dice di reintegrare Monica l'

1
Sì, questa roba può essere discussa da tutti i tipi di angolazioni. Personalmente sono spesso senza molto giudizio su nessuna parte, ma mi piace che gli argomenti siano chiari e chiari. Le notizie sul clima sono attualmente molto confuse.
Sesto Empirico

1
Ciò che ancora mi preoccupa del trattamento tecnico è il significato di (puoi descrivere le serie temporali teoriche come una somma di componenti e questa è quella con la più grande varianza?) Ma perché correlare il segnale misurato con questo componente e correlarlo alla varianza della correlazione del modello antropogenico con questo componente? (hai forse cambiato modello antropogenico e non antropogenico?) Tutta questa roba (analisi nascosta) rende molto difficile vedere se hanno davvero scoperto un bump con 5 sigma o se hanno appena scoperto che le misurazioni non si adattano al modello. F(x)
Sesto Empirico
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.