Rallegrare l'ordine di un ritardo?


9

Supponiamo di avere dati longitudinali della forma (ho più osservazioni, questa è solo la forma di una singola). Sono interessato a restrizioni su . Un senza restrizioni equivale a prendere con .Σ Σ Y j = α j + j - 1 = 1 ϕ j Y j - + ε j ε jN ( 0 , σ j )Y=(Y1,,YJ)N(μ,Σ)ΣΣ

Yj=αj+=1j1ϕjYj+εj
εjN(0,σj)

Questo in genere non viene eseguito poiché richiede la stima dei parametri di covarianza . Un modello è "lag- " se prendiamo ovvero utilizziamo solo i precedenti termini per prevedere dalla cronologia.O(J2)k

Yj=αj+=1kϕjYj+εj,
kYj

Quello che mi piacerebbe davvero fare è usare una sorta di idea di restringimento per azzerare alcuni dei , come il LASSO. Ma la cosa è, mi piacerebbe anche il metodo che uso a preferire modelli che sono lag- per qualche ; Vorrei penalizzare i ritardi di ordine superiore più di quelli di ordine inferiore. Penso che questo sia qualcosa che vorremmo fare in particolare dato che i predittori sono altamente correlati.ϕjkk

Un ulteriore problema è che se (diciamo) viene ridotto a mi piacerebbe anche se viene ridotto a , ovvero lo stesso ritardo viene utilizzato in tutte le distribuzioni condizionali.ϕ350ϕ360

Potrei speculare su questo, ma non voglio reinventare la ruota. Esistono tecniche LASSO progettate per risolvere questo tipo di problema? Sto meglio facendo semplicemente qualcos'altro, come l'inclusione graduale degli ordini di ritardo? Dal momento che il mio spazio modello è piccolo, potrei anche usare una penalità su questo problema, immagino?L0

Risposte:


2

È possibile eseguire ripetutamente la convalida incrociata da k = 0 a qualunque sia il massimo e tracciare le prestazioni rispetto a k. Poiché il modello è in fase di test su dati che non ha mai visto prima, non vi è alcuna garanzia che i modelli complessi funzioneranno meglio, e in effetti si dovrebbe vedere un degrado delle prestazioni se il modello diventa troppo complesso a causa di un eccesso di adattamento. Personalmente penso che questo sia più sicuro e più facile da giustificare che avere un fattore di penalizzazione arbitrario, ma il tuo chilometraggio può variare.

Inoltre, non seguo davvero il modo in cui Lasso ordinato risponde alla domanda. Sembra troppo restrittivo, sta forzando completamente l'ordinamento dei coefficienti. Considerando che la domanda originale potrebbe finire per alcuni dati che hanno una soluzione in cui non sta diminuendo rigorosamente con l.ϕlj


Per aggiungere LaTeX alla tua domanda, racchiudi l'espressione tra i simboli di dollaro ($).
Patrick Coulombe,

1
(1) Dal solo modello, non è ovvio che l'ordinamento dei coefficienti sia desiderabile, ma sostanzialmente è ragionevole. In uno studio clinico a misure ripetute, ad esempio, non vi è alcuna ragione sostanziale di aspettarsi che una piccola perturbazione di influenzi stocasticamente più di una piccola perturbazione di . Il LASSO ordinato fa un uso migliore di questa conoscenza a priori, con il minor rischio che potrebbe non essere vero. Yj2YjYj1
ragazzo

(2) In generale, non userei questa strategia CV almeno in parte perché è troppo dogmatica. Posso ottenere previsioni migliori riducendo giudiziosamente un ritardo, anziché eliminarlo del tutto.
ragazzo

Nir, un utile commento sul LASSO ordinato. Ho modificato la mia risposta per renderla un po 'più completa. Grazie!
Sean Easter,

Grazie Sean. Ragazzo, non credo sia troppo dogmatico. Non stai impostando ak in pietra, ma piuttosto permettendogli di variare. Il k che sceglie sarà all'inizio del sovradimensionamento. Sono anche in forte disaccordo con la tua affermazione di presunta conoscenza a priori. Qualcosa che sembra ragionevole e che conosce quella cosa è completamente diverso. Devo ammettere che sembra che ci sia una resistenza nelle statistiche tradizionali a superare la convalida che non ho mai capito. Sceglierei efficienza predittiva su dati fuori campione oltre ad aggiungere ipotesi ogni giorno.
Nir Friedman,

2

Il LASSO ordinato sembra essere quello che stai cercando: calcola i coefficienti di regressione regolarizzati come nel LASSO standard, ma soggetto al vincolo aggiuntivo che. | β 1 | | β 2 | . . . | β j |β1...j|β1||β2|...|βj|

Questo raggiunge il secondo obiettivo di azzerare i coefficienti per ritardi di ordine superiore, ma è più restrittivo della sola limitazione di preferire un modello di ritardo inferiore. E come altri sottolineano, questa è una restrizione pesante che può essere molto difficile da giustificare.

Avendo rinunciato alle avvertenze, il documento presenta i risultati del metodo su dati di serie temporali reali e simulati e algoritmi di dettaglio per trovare i coefficienti. La conclusione menziona un pacchetto R, ma il documento è piuttosto recente e una ricerca su CRAN per "LASSO ordinato" appare vuota, quindi sospetto che il pacchetto sia ancora in fase di sviluppo.

Il documento offre anche un approccio generalizzato in cui due parametri di regolarizzazione "incoraggiano la quasi monotonia". (Vedi p. 6.) In altre parole, si dovrebbe essere in grado di ottimizzare i parametri per consentire un ordinamento rilassato. Purtroppo, non vengono forniti né esempi né confronti del metodo rilassato. Ma gli autori scrivono che l'implementazione di questa modifica è una semplice questione di sostituzione di un algoritmo con un altro, quindi si spera che faccia parte del pacchetto R in arrivo.


Grazie, è davvero interessante che questa sia un'idea recente. In realtà mi è venuta in mente la stessa idea di discutere del problema con un amico quando ho fatto la domanda 9 mesi fa, ma non ho mai indagato a fondo! Ho solo pensato che l'idea non fosse quel romanzo, o che qualcun altro avesse già scritto un articolo al riguardo.
ragazzo

Molto benvenuto! Sono stato sorpreso che fosse così recente me stesso.
Sean Easter

1

La penalità LASSO nidificata ( pdf ) potrebbe essere impiegata ma non ci sono pacchetti R per questo.


1
Al momento, questo è più un commento che una risposta. Puoi espanderlo un po ', forse discutendo della pena nidificata LASSO, ecc.?
gung - Ripristina Monica

0

So che l'hai scritto come premessa, ma non userei il LASSO ordinato senza essere assolutamente sicuro che questa sia la cosa necessaria, perché i presupposti del LASSO ordinato non sono direttamente appropriati per la previsione delle serie temporali. Come contro-esempio, considera il caso in cui hai un ritardo di, diciamo, dieci intervalli di tempo tra la misurazione e l'obiettivo. Ovviamente, i vincoli LASSO ordinati non possono gestire tali effetti senza attribuire sciocchezze ai primi nove parametri.

Al contrario, preferirei attenermi al normale LASSO e includere tutte le osservazioni precedenti, in particolare perché hai scritto che il tuo spazio modello è piccolo e le routine di ottimizzazione di discesa delle coordinate per LASSO (come descritto qui ) funzionano in modo efficiente anche per set di dati di grandi dimensioni. Quindi calcola il percorso per il parametro di resistenza alla regolarizzazione e osserva quali parametri vengono inclusi mentre passi da a grandi dimensioni . Soprattutto quelli inclusi in precedenza sono quelli importanti.λ λ = 0λλλ=0

Infine, devi scegliere un criterio appropriato e ottimizzare il parametro usando la validazione incrociata, la minimizzazione unidimensionale standard o altro. Il criterio può ad esempio essere qualcosa come "errore di previsione + numero di variabili incluse" (simile a un criterio AIC).λ


Ovviamente non sarei interessato ai vincoli sull'ordine dei coefficienti se non avessi forti ragioni a priori per crederci. Per i modelli che sospetto siano probabili, euristicamente il LASSO ordinato dovrebbe essere più efficiente. Avere un coefficiente di ritardo 10 con l'altro 9 pari a 0 non ha senso nella mia impostazione sostanziale . Questo è un problema su cui i miei colleghi hanno lavorato (riduzione basata sui ritardi ordinati), ma hanno usato le idee bayesuan e quindi non prenderebbero in considerazione un LASSO (non bayesiano).
ragazzo

Ok, sembra che tu sappia cosa fai. Ma ricorda che il LASSO ordinato è più fortemente vincolato della tua affermazione "una volta zero - sempre zero". In alternativa, potresti anche considerare un modello in cui i parametri entrano in modo moltiplicativo. Quindi, l'importanza relativa può aumentare o diminuire fino a quando un coefficiente diventa zero.
davidhigh,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.