Quando utilizzare più modelli per la previsione?


13

Questa è una domanda abbastanza generica:

In genere ho scoperto che l'utilizzo di più modelli diversi supera un modello quando si tenta di prevedere una serie temporale fuori campione. Esistono buoni documenti che dimostrano che la combinazione di modelli supererà un singolo modello? Esistono best practice in merito alla combinazione di più modelli?

Alcuni riferimenti:


ho aggiunto quella che penso sia una fonte abbastanza buona (purtroppo un libro di testo) con annotazione, alla luce del tuo commento / domanda sotto la mia risposta. Ho modificato la mia risposta originale, quindi appare alla fine.
Doug,

Risposte:


7

A volte questo tipo di modelli è chiamato insieme. Ad esempio questa pagina offre una bella panoramica di come funziona. Anche i riferimenti citati sono molto utili.


3
In effetti, la fusione è una delle possibili tecniche di ensemble. In particolare, ce ne sono due quando combini lo stesso tipo di classificatore, potenziamento (come Adaboost) e insaccamento (come Random Forest) e fusione, in cui combini classificatori diversi (qual era la domanda di Shane).

3
Per la miscelazione, vale la pena leggere questo articolo del concorso netflix: the-ensemble.com/content/feature-weighted-linear-stacking .
Shane,

1
È divertente che il meteorologo usi anche la parola "insieme", ma non per combinazione: la usano per un insieme di predizione (come lo scenario) ottenuto dalla perturbazione delle condizioni iniziali del modello numerico.
Robin Girard,

1
@mbq infatti si definiscono previsioni e usano molto la statistica ...
robin girard,

1
@robin Lo so, è per questo che si chiama "ensemble" non un set o qualcosa del genere.

10

L'ultimo anno del concorso NetFlix Prize (2009) mi è sembrato di aver cambiato drasticamente la presunzione generale a livello comunitario contro la combinazione di più algoritmi di apprendimento.

Ad esempio, la mia formazione formale (corsi universitari) e successivamente supervisione / tutoraggio sul posto di lavoro ci hanno insegnato a evitare la combinazione di algoritmi a meno che non avessimo un motivo esplicito per farlo - e "per migliorare la risoluzione del mio attuale algoritmo", non era ' Ho davvero considerato una buona ragione. (Altri potrebbero avere un'esperienza diversa - ovviamente sto deducendo una visione a livello di comunità basata esclusivamente sulla mia esperienza, anche se la mia esperienza nella codifica di algoritmi ML con prestazioni scarse è sostanziale.)

Tuttavia, c'erano alcuni "schemi" in cui era accettata la combinazione di algoritmi in un modo o nell'altro e in realtà miglioravano le prestazioni. Per me, l'esempio più frequente riguardava un algoritmo ML configurato in modalità macchina (assegnazione di un'etichetta di classe a ciascun punto dati) e in cui c'erano più di due classi (di solito molte più). Quando, ad esempio, utilizziamo un algoritmo di apprendimento supervisionato per risolvere quattro classi, e vedremmo un'eccellente separazione tranne per la Classe III contro la Classe IV. Quindi, su quei sei limiti di decisione, solo uno si è risolto al di sotto della soglia richiesta. Soprattutto quando le classi III e IV rappresentavano insieme una piccola percentuale dei dati, aggiungendo un algoritmo aggiuntivo ottimizzato solo sulla risoluzione di quelle due classi, era una soluzione abbastanza comune a questo tipo di problema analitico. (Di solito quel 'punto cieco' era una limitazione intrinseca dell'algoritmo primario - ad esempio, era un classificatore lineare e il limite di decisione III / IV non era lineare.

In altre parole, quando disponevamo di un algoritmo affidabile adatto all'ambiente di elaborazione (che di solito era lo streaming di dati) e quello eseguito all'interno delle specifiche tranne un singolo punto cieco che impediva la risoluzione di due (o più) classi che rappresentavano una piccola parte dei dati, quindi era sempre meglio "imbullonare" un altro algoritmo specializzato per individuare ciò che sistematicamente mancava all'algoritmo principale.

Infine, su questo argomento, vorrei raccomandare caldamente il capitolo 17, Combinare più studenti , in Introduzione all'apprendimento automatico , 2d, di Ethem Alpaydin, MIT Press, 2010. Si noti che questa è la seconda edizione pubblicata pochi mesi fa; la prima edizione è stata pubblicata nel 2004 e dubito che abbia la stessa copertura di questo argomento. (In realtà raccomando l'intero testo, ma quel capitolo in particolare poiché si riferisce alla domanda di Shane.)

In 25 pagine, l'autore sintetizza probabilmente ogni schema di combinazione di algoritmi ML la cui utilità è stata dimostrata nella letteratura o nella pratica accademica - ad esempio, insaccamento, potenziamento, miscela di esperti, generalizzazione accatastata, cascata, votazione, correzione di errori, .. ..


questa è un'ottima informazione. Conoscete documenti che trattano questo?
Shane,

(non ho ricevuto un avviso da SA del tuo commento) Beh, non mi riferivo a nessun documento quando l'ho scritto, piuttosto semplicemente sommando in modo informale pezzi della mia esperienza rilevanti per la tua Domanda. Guarderò attraverso i miei file e vedrò quello che ho che è rilevante.
Doug

4

Seguendo la risposta di Peter sui metodi dell'ensemble:


2

L'esempio più spettacolare è la sfida di Netflix , che ha fatto aumentare notevolmente la popolarità della fusione.


1

Ecco una risposta leggermente fuori dal campo di sinistra, che tocca solo la parte "best practice sulla combinazione di più modelli" della tua domanda. Fondamentalmente questa è esattamente la mia tesi di onore, tranne per il fatto che ho a che fare con modelli complessi e altamente non lineari che mostrano caos e rumore - modelli climatici. Questo non è probabilmente ampiamente applicabile a molti campi, ma potrebbe essere utile in ecologia o econometria.

Fino a poco tempo fa nella comunità dei modelli climatici, i modelli erano in gran parte semplicemente frantumati insieme in una media non ponderata (di solito dopo la correzione del bias che comportava la rimozione della media del modello per parte o tutto il periodo di campionamento). Questo è fondamentalmente ciò che l'IPCC ha fatto per la 4a relazione di valutazione (4AR) e le relazioni precedenti.

Questo è più o meno un esempio della scuola " verità più errore " della combinazione di ensemble, in cui si presume tacitamente o esplicitamente che le serie osservative (ad es. Temperatura globale, precipitazioni locali, ecc.) Siano vere e che se si prendono abbastanza campioni (es. serie di modelli), il rumore nelle serie di modelli verrà annullato (vedere (1)).

Più recentemente, sono stati utilizzati metodi per combinare modelli basati sulla ponderazione delle prestazioni . Poiché i modelli climatici sono così rumorosi e hanno così tante variabili e parametri, gli unici modi per valutare le prestazioni (che io conosco) sono prendendo la covarianza o prendendo l'MSE tra l'output del modello e le serie temporali osservate. I modelli possono quindi essere combinati ponderando la media in base a tale misura. C'è una buona panoramica di questo in (2).

Un presupposto alla base di questo metodo di combinazione delle simulazioni è il presupposto che i modelli siano tutti ragionevolmente indipendenti - se alcuni fossero altamente dipendenti, pregiudicherebbero la media. Questa ipotesi era ragionevolmente corretta per il set di dati utilizzato per 4AR ( CMIP3 , poiché questo set di dati era composto da poche serie di modelli da molti gruppi di modellazione (d'altra parte, il codice è condiviso nella comunità di modellazione, quindi potrebbe esserci ancora qualche interdipendenza Per uno sguardo interessante a questo, vedere (3). Il set di dati per il prossimo rapporto di valutazione, CMIP5, non ha questo attributo un po 'fortuito: alcuni team di modelle invieranno alcune corse, mentre altri ne invieranno centinaia. Gli ensemble provenienti da team diversi possono essere prodotti dalla peturbazione delle condizioni iniziali o da modifiche alla fisica del modello e alla parametrizzazione. Inoltre, questo super ensemble non viene campionato in modo sistematico: è solo chi porta i dati ad essere accettato (entro limiti ragionevoli). Questo è noto sul campo come un " insieme di opportunità ". C'è una buona probabilità che l'uso di una media non ponderata su un tale ensemble ti dia un grosso pregiudizio verso i modelli con più corse (poiché anche se ci sono centinaia di piste, è probabile che ci sia un numero molto più piccolo di piste veramente indipendenti).

Al momento il mio supervisore sta esaminando un documento che descrive un processo di combinazione di modelli che coinvolge prestazioni e ponderazione dell'indipendenza . È disponibile un estratto del documento della conferenza (4), posterò il link al documento quando verrà pubblicato (processo lento, non trattenere il respiro). Fondamentalmente, questo documento descrive un processo che prevede l'assunzione della covarianza degli errori del modello (modello-obs) e la ponderazione dei modelli che hanno un'elevata covarianza con tutti gli altri modelli (es. Modelli con errori altamente dipendenti). Anche la varianza degli errori del modello viene calcolata e utilizzata come componente di ponderazione delle prestazioni.

Vale anche la pena notare che la modellistica climatica è ovviamente fortemente influenzata dai capricci della modellistica numerica in generale. C'è una cosa chiamata "test della risata" - se si finisce con un modello che implica che le temperature medie globali saranno di + 20 ° C entro il 2050, lo si butta semplicemente fuori, perché chiaramente non è fisicamente rilevante. Ovviamente questo tipo di test è abbastanza soggettivo. Non l'ho ancora richiesto, ma mi aspetto di farlo in un prossimo futuro.

Questa è la mia comprensione della combinazione del modello di stato nel mio campo al momento. Ovviamente sto ancora imparando, quindi se colpisco qualcosa di speciale, torno e aggiorno questa risposta.

(1) Tebaldi, C. & Knutti, R., 2007. L'uso dell'ensemble multi-modello nelle proiezioni climatiche probabilistiche. Transazioni filosofiche della Royal Society A: Scienze matematiche fisiche e ingegneristiche, 365 (1857), pagg. 2053–2075.

(2) Knutti, R. et al., 2010. Riunione di esperti IPCC sulla valutazione e la combinazione di proiezioni climatiche multi modello.

(3) Masson, D. & Knutti, R., 2011. genealogia del modello climatico. Geophys. Res. Lett, 38 (8), p .08703.

(4) Abramowitz, G. & Bishop, C., 2010. Definizione e ponderazione per la dipendenza del modello nella previsione dell'ensemble. In AGU Fall Meeting Abstracts. p. 07.


primo paragrafo intendi " modelli complessi, altamente non lineari ", giusto? Per la mia area di lavoro (area non climatica), trovo spesso che l'utilizzo di modelli diversi generalmente non porti a previsioni molto diverse. Tuttavia, il semplice fatto di mettere a punto i computer e di metterli in funzione per combinare i modelli in modo non ad hoc è una barriera enorme per noi. Mi aspetterei previsioni più accurate, ma non ho il tempo di combinare i modelli e stimare con precisione l'errore in tali previsioni.
Probislogic

Grazie, risolto. Ho accesso al cluster di acomputing, quindi la potenza di calcolo non è un grosso problema, ma sì, anche ottenere l'unico modello che sto usando impostato correttamente è una seccatura, ed è già scritto. Ecco perché esiste il CMIP, quindi le persone non devono affrontare tutti questi problemi ogni volta. Sarei interessato a sapere in quale campo ti trovi, se stai facendo cose simili.
nulla101
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.