Ecco una risposta leggermente fuori dal campo di sinistra, che tocca solo la parte "best practice sulla combinazione di più modelli" della tua domanda. Fondamentalmente questa è esattamente la mia tesi di onore, tranne per il fatto che ho a che fare con modelli complessi e altamente non lineari che mostrano caos e rumore - modelli climatici. Questo non è probabilmente ampiamente applicabile a molti campi, ma potrebbe essere utile in ecologia o econometria.
Fino a poco tempo fa nella comunità dei modelli climatici, i modelli erano in gran parte semplicemente frantumati insieme in una media non ponderata (di solito dopo la correzione del bias che comportava la rimozione della media del modello per parte o tutto il periodo di campionamento). Questo è fondamentalmente ciò che l'IPCC ha fatto per la 4a relazione di valutazione (4AR) e le relazioni precedenti.
Questo è più o meno un esempio della scuola " verità più errore " della combinazione di ensemble, in cui si presume tacitamente o esplicitamente che le serie osservative (ad es. Temperatura globale, precipitazioni locali, ecc.) Siano vere e che se si prendono abbastanza campioni (es. serie di modelli), il rumore nelle serie di modelli verrà annullato (vedere (1)).
Più recentemente, sono stati utilizzati metodi per combinare modelli basati sulla ponderazione delle prestazioni . Poiché i modelli climatici sono così rumorosi e hanno così tante variabili e parametri, gli unici modi per valutare le prestazioni (che io conosco) sono prendendo la covarianza o prendendo l'MSE tra l'output del modello e le serie temporali osservate. I modelli possono quindi essere combinati ponderando la media in base a tale misura. C'è una buona panoramica di questo in (2).
Un presupposto alla base di questo metodo di combinazione delle simulazioni è il presupposto che i modelli siano tutti ragionevolmente indipendenti - se alcuni fossero altamente dipendenti, pregiudicherebbero la media. Questa ipotesi era ragionevolmente corretta per il set di dati utilizzato per 4AR ( CMIP3 , poiché questo set di dati era composto da poche serie di modelli da molti gruppi di modellazione (d'altra parte, il codice è condiviso nella comunità di modellazione, quindi potrebbe esserci ancora qualche interdipendenza Per uno sguardo interessante a questo, vedere (3). Il set di dati per il prossimo rapporto di valutazione, CMIP5, non ha questo attributo un po 'fortuito: alcuni team di modelle invieranno alcune corse, mentre altri ne invieranno centinaia. Gli ensemble provenienti da team diversi possono essere prodotti dalla peturbazione delle condizioni iniziali o da modifiche alla fisica del modello e alla parametrizzazione. Inoltre, questo super ensemble non viene campionato in modo sistematico: è solo chi porta i dati ad essere accettato (entro limiti ragionevoli). Questo è noto sul campo come un " insieme di opportunità ". C'è una buona probabilità che l'uso di una media non ponderata su un tale ensemble ti dia un grosso pregiudizio verso i modelli con più corse (poiché anche se ci sono centinaia di piste, è probabile che ci sia un numero molto più piccolo di piste veramente indipendenti).
Al momento il mio supervisore sta esaminando un documento che descrive un processo di combinazione di modelli che coinvolge prestazioni e ponderazione dell'indipendenza . È disponibile un estratto del documento della conferenza (4), posterò il link al documento quando verrà pubblicato (processo lento, non trattenere il respiro). Fondamentalmente, questo documento descrive un processo che prevede l'assunzione della covarianza degli errori del modello (modello-obs) e la ponderazione dei modelli che hanno un'elevata covarianza con tutti gli altri modelli (es. Modelli con errori altamente dipendenti). Anche la varianza degli errori del modello viene calcolata e utilizzata come componente di ponderazione delle prestazioni.
Vale anche la pena notare che la modellistica climatica è ovviamente fortemente influenzata dai capricci della modellistica numerica in generale. C'è una cosa chiamata "test della risata" - se si finisce con un modello che implica che le temperature medie globali saranno di + 20 ° C entro il 2050, lo si butta semplicemente fuori, perché chiaramente non è fisicamente rilevante. Ovviamente questo tipo di test è abbastanza soggettivo. Non l'ho ancora richiesto, ma mi aspetto di farlo in un prossimo futuro.
Questa è la mia comprensione della combinazione del modello di stato nel mio campo al momento. Ovviamente sto ancora imparando, quindi se colpisco qualcosa di speciale, torno e aggiorno questa risposta.
(1) Tebaldi, C. & Knutti, R., 2007. L'uso dell'ensemble multi-modello nelle proiezioni climatiche probabilistiche. Transazioni filosofiche della Royal Society A: Scienze matematiche fisiche e ingegneristiche, 365 (1857), pagg. 2053–2075.
(2) Knutti, R. et al., 2010. Riunione di esperti IPCC sulla valutazione e la combinazione di proiezioni climatiche multi modello.
(3) Masson, D. & Knutti, R., 2011. genealogia del modello climatico. Geophys. Res. Lett, 38 (8), p .08703.
(4) Abramowitz, G. & Bishop, C., 2010. Definizione e ponderazione per la dipendenza del modello nella previsione dell'ensemble. In AGU Fall Meeting Abstracts. p. 07.