I modelli misti sono utili come modelli predittivi?


24

Sono un po 'confuso riguardo ai vantaggi dei modelli misti rispetto alla modellazione predittiva. Poiché i modelli predittivi sono generalmente intesi per prevedere i valori di osservazioni precedentemente sconosciute, mi sembra ovvio che l'unico modo in cui un modello misto può essere utile è attraverso la sua capacità di fornire previsioni a livello di popolazione (cioè senza aggiungere effetti casuali). Tuttavia, il problema è che finora nella mia esperienza le previsioni a livello di popolazione basate su modelli misti sono significativamente peggiori delle previsioni basate su modelli di regressione standard con solo effetti fissi.

Allora, qual è il punto di modelli misti per quanto riguarda i problemi di previsione?

MODIFICARE. Il problema è il seguente: ho montato un modello misto (con effetti sia fissi che casuali) e un modello lineare standard con solo effetti fissi. Quando eseguo la convalida incrociata ottengo una seguente gerarchia di precisione predittiva: 1) modelli misti quando si prevede di utilizzare effetti fissi e casuali (ma questo funziona ovviamente solo per osservazioni con livelli noti di variabili di effetti casuali, quindi questo approccio predittivo sembra non essere adatto a reali applicazioni predittive!); 2) modello lineare standard; 3) modello misto quando si usano previsioni a livello di popolazione (quindi con effetti casuali eliminati). Pertanto, l'unica differenza tra il modello lineare standard e il modello misto è un valore dei coefficienti leggermente diverso a causa dei diversi metodi di stima (cioè ci sono gli stessi effetti / predittori in entrambi i modelli, ma hanno coefficienti associati diversi).

Quindi la mia confusione si riduce a una domanda, perché dovrei mai usare un modello misto come modello predittivo, dal momento che l'uso del modello misto per generare previsioni a livello di popolazione sembra essere una strategia inferiore rispetto a un modello lineare standard.


Come stai facendo le tue previsioni? Non stai usando gli effetti casuali o stai riparando i tuoi effetti casuali ai loro mezzi? (Vale a dire che stai lanciando gli effetti casuali al momento della previsione?)
Wayne, il

Per quanto ho capito correttamente gli effetti casuali, fissare effetti casuali ai loro mezzi è lo stesso di buttarli fuori, poiché gli effetti casuali (almeno nella parametrizzazione che uso) sono generati da una normale distribuzione di mezzi 0 e varianza sigma. Comunque, dato che non conosco i valori delle variabili degli effetti casuali per le nuove osservazioni, ovviamente non uso effetti casuali al momento della previsione, ma solo effetti fissi.
sztal

1
Potresti voler leggere
Jon

1
sztal: hai ragione ovviamente. Stavo cercando di rispondere rapidamente e ho detto qualcosa di non significativo. Ho trovato il documento ( gllamm.org/JRSSApredict_09.pdf ) che affronta la previsione nella Sezione 7. Devo dire che non posso riassumere in un commento, che indica che non lo capisco davvero.
Wayne,

Un'ultima domanda: quando confronti gli effetti fissi solo con gli effetti misti, stai usando gli stessi effetti fissi in ciascuno, con solo l'aggiunta di qualcosa come un'intercettazione a livello individuale? Sembra che in questa situazione, dovresti avere effetti molto simili, tranne con una migliore idea del tuo vero intervallo predittivo.
Wayne,

Risposte:


17

Dipende dalla natura dei dati, ma in generale mi aspetto che il modello misto superi i modelli a soli effetti fissi.

Facciamo un esempio: modellare la relazione tra il sole e l'altezza degli steli di grano. Abbiamo un numero di misurazioni dei singoli gambi, ma molti degli steli sono misurati negli stessi siti (che sono simili nel suolo, nell'acqua e in altre cose che possono influenzare l'altezza). Ecco alcuni possibili modelli:

1) altezza ~ sole

2) altezza ~ sole + sito

3) altezza ~ sole + (1 | sito)

Vogliamo usare questi modelli per prevedere l'altezza dei nuovi gambi di grano, data una stima del sole che sperimenteranno. Ignorerò la penalità di parametro che pagheresti per avere molti siti in un modello a soli effetti fissi, e considererò solo il potere predittivo relativo dei modelli.

La domanda più rilevante qui è se questi nuovi punti dati che stai tentando di prevedere provengono da uno dei siti che hai misurato; dici che questo è raro nel mondo reale, ma succede.

A) I nuovi dati provengono da un sito che hai misurato

In tal caso, i modelli n. 2 e n. 3 supereranno il n. 1. Entrambi usano informazioni più rilevanti (effetto medio del sito) per fare previsioni.

B) I nuovi dati provengono da un sito non misurato

Mi aspetto ancora che il modello n. 3 superi le prestazioni n. 1 e n. 2, per i seguenti motivi.

(i) Modello n. 3 vs n. 1:

Il modello n. 1 produrrà stime distorte a favore di siti sovrarappresentati. Se hai un numero simile di punti da ciascun sito e un campione ragionevolmente rappresentativo di siti, dovresti ottenere risultati simili da entrambi.

(ii) Modello n. 3 contro n. 2:

Perché il modello n. 3 sarebbe migliore del modello n. 2 in questo caso? Poiché gli effetti casuali sfruttano il restringimento , gli effetti del sito saranno "ridotti" verso lo zero. In altre parole, tenderai a trovare valori meno estremi per gli effetti del sito quando viene specificato come effetto casuale rispetto a quando viene specificato come effetto fisso. Questo è utile e migliora la tua capacità predittiva quando la popolazione media può ragionevolmente essere pensata come attinta da una distribuzione normale (vedi Paradosso di Stein in Statistica ). Se non ci si aspetta che la popolazione segua una distribuzione normale, questo potrebbe essere un problema, ma di solito è un presupposto molto ragionevole e il metodo è robusto per piccole deviazioni.

[Nota a margine: per impostazione predefinita, quando si adatta il modello n. 2, la maggior parte dei software userebbe uno dei siti come riferimento e stimerebbe i coefficienti per gli altri siti che rappresentano la loro deviazione dal riferimento. Quindi può sembrare che non ci sia modo di calcolare un "effetto popolazione" complessivo. Ma puoi calcolarlo calcolando la media tra le previsioni per tutti i singoli siti o, più semplicemente, modificando la codifica del modello in modo che i coefficienti vengano calcolati per ogni sito.]


Grazie per la risposta. Sono piuttosto convinto. Sfortunatamente non ricordo ora il caso esatto che ha motivato la mia domanda, ma penso che le scarse prestazioni di un modello misto nel mio caso avrebbero potuto essere dovute a distribuzioni piuttosto irregolari di predittori che ho usato nel modello. Presto accetterò la risposta, ma poiché la domanda ha attirato un po 'di attenzione, darò qualche giorno in più in modo che qualcuno possa fornire una spiegazione più rigorosa (forse con alcuni esempi).
sztal

1
Ben messo. Va notato che la previsione erirarchica degli effetti specifici del sito che danno origine agli effetti casuali, per prevedere qualsiasi intercettazione casuale o pendenza casuale stimata empiricamente dal modello dovrebbe essere equivalente ad avere solo un mucchio di livelli individuali e effetti fissi specifici del sito nel modello.
AdamO,

8

In seguito all'eccellente risposta di mkt: dalla mia esperienza personale nello sviluppo di modelli predittivi nel campo dell'assicurazione sanitaria, l'incorporazione di effetti casuali in modelli predittivi (compresi i modelli di apprendimento automatico) presenta numerosi vantaggi.

Mi viene spesso chiesto di costruire modelli che prevedano i risultati futuri dei sinistri (ad es. Spese sanitarie future, durata del soggiorno, ecc.) Sulla base dei dati storici sui sinistri di un individuo. Spesso ci sono più richieste per individuo con esiti correlati. Ignorare il fatto che molte affermazioni sono condivise dallo stesso paziente avrebbe gettato informazioni preziose in un modello predittivo.

Una soluzione sarebbe quella di creare variabili dell'indicatore di effetti fissi per ciascun membro nel set di dati e utilizzare una regressione penalizzata per ridurre separatamente ciascuno degli effetti fissi a livello di membro. Tuttavia, se ci sono migliaia o milioni di membri nei tuoi dati, una soluzione più efficiente sia dal punto di vista computazionale che predittivo potrebbe essere quella di rappresentare gli effetti fissi a livello di membro multiplo come un singolo termine di effetto casuale con una distribuzione normale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.