Incorporando variabili esplicative più dettagliate nel tempo


9

Sto cercando di capire come potrei modellare al meglio una variabile in cui nel tempo ho ottenuto predittori sempre più dettagliati. Ad esempio, prendere in considerazione la modellizzazione dei tassi di recupero sui prestiti inadempienti. Supponiamo di avere un set di dati con 20 anni di dati e nei primi 15 di quegli anni sappiamo solo se il prestito è stato garantito o meno, ma nulla sulle caratteristiche di tale garanzia. Negli ultimi cinque anni, tuttavia, possiamo suddividere la garanzia in una serie di categorie che dovrebbero essere un buon predittore del tasso di recupero.

Data questa configurazione, voglio adattare un modello ai dati, determinare misure come il significato statistico dei predittori e quindi prevedere con il modello.

In quale framework di dati mancanti si adatta? Vi sono considerazioni speciali legate al fatto che le variabili esplicative più dettagliate diventano disponibili solo dopo un determinato momento, anziché essere disperse in tutto il campione storico?

Risposte:


1

OK, dall'esperienza nell'uso dei dati storici, più cronologia può far apparire meglio l'adattamento della regressione, ma se la previsione è il punto di esercizio, la risposta generale è avvertita. Nel caso in cui i dati riflettano periodi in cui il "mondo" era molto diverso, la stabilità delle correlazioni è discutibile. Ciò si verifica soprattutto in economia dove mercati e normative sono in costante evoluzione.

Ciò vale anche per il mercato immobiliare che, inoltre, può avere un ciclo lungo. L'invenzione dei titoli garantiti da ipoteca, ad esempio, ha trasformato il mercato dei mutui e ha aperto le porte alle inondazioni per l'origine dei mutui, e anche, purtroppo, la speculazione (in realtà c'era un'intera classe di prestiti a basso / nullo documento denominati prestiti lier).

I metodi che testano i cambiamenti di regime possono essere particolarmente preziosi nel decidere in modo non soggettivo quando escludere la storia.


1

In genere, questo può essere visto come un problema di valore di parametro limitato. Come capisco la tua domanda, hai un parametro meno informativo (garanzia di qualità sconosciuta [Cu]) all'inizio dei tuoi dati e più informativo (garanzia con alta [Ch], medio [Cm] o bassa [Cl]) nella tua dati successivi.

Se si ritiene che i parametri non osservati per il modello non cambino nel tempo, il metodo può essere semplice laddove si presume che le stime dei punti di ciascuno siano Cl <Cm <Ch e Cl <= Cu <= Ch. La logica è che Cl è il peggiore e Ch il migliore, quindi quando i dati sono sconosciuti devono essere tra o uguali a quelli. Se sei disposto a essere leggermente restrittivo e presumi che non tutte le garanzie siano state di alta o bassa qualità durante i primi 15 anni, puoi supporre che Cl <Cu <Ch lo renda significativamente più semplice da stimare.

Cl=exp(β1)Cm=exp(β1)+exp(β2)Cu=exp(β1)+exp(β3)1+exp(-β4)Ch=exp(β1)+exp(β2)+exp(β3)

Dove la funzione logit in Cu limita il valore tra Cl e Ch senza limitarlo rispetto a Cm. (È possibile utilizzare anche altre funzioni che vanno da 0 a 1).

Un'altra differenza nel modello dovrebbe essere che la varianza dovrebbe essere strutturata in modo tale che la varianza residua dipenda dal periodo di tempo poiché le informazioni all'interno di ciascun periodo sono diverse.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.