Selezione di k nodi nella regressione che livella la spline equivalente a k variabili categoriche?


9

Sto lavorando a un modello di costo predittivo in cui l'età del paziente (una quantità intera misurata in anni) è una delle variabili predittive. È evidente una forte relazione non lineare tra età e rischio di degenza ospedaliera:

inserisci qui la descrizione dell'immagine

Sto prendendo in considerazione una regressione attenuata che attenua la spline per l'età del paziente. Secondo The Elements of Statistical Learning (Hastie et al, 2009, p.151), il posizionamento ottimale dei nodi è di un nodo per valore unico dell'età dei membri.

Dato che sto conservando l'età come numero intero, la spline di livellamento penalizzata equivale a eseguire una regressione o lazo della cresta con 101 variabili dell'indicatore dell'età distinte, una per valore di età trovata nel set di dati (meno una per riferimento)? La parametrizzazione eccessiva viene quindi evitata poiché i coefficienti su ciascun indicatore di età vengono ridotti verso lo zero.


La tua proposta di indicatori di età + restringimento è essenzialmente la stessa di una spline levigante dell'ordine 0.
Glen_b -Reinstate Monica

Sarebbe utile se specificassi quali sono le altre variabili predittive, come suggerito da una delle risposte, se controlli per il motivo di ammissione potresti avere un grafico molto diverso.
seanv507,

Risposte:


11

Ottima domanda Credo che la risposta alla domanda che poni - "è la spline di livellamento penalizzata equivalente a eseguire una regressione della cresta o un lazo" - è sì. Ci sono un certo numero di fonti là fuori che possono fornire commenti e prospettive. Un punto da cui potresti voler iniziare è questo link PDF . Come si nota nelle note:

"Adattare un modello di spline di livellamento equivale a eseguire una forma di regressione della cresta in base alle spline naturali."

Se stai cercando una lettura generale, potresti provare a leggere questo eccellente documento su Regressions penalizzati: The Bridge Versus the Lasso . Ciò potrebbe aiutare a rispondere alla domanda se la spline di livellamento penalizzata sia esattamente equivalente, sebbene fornisca una prospettiva più generale. Lo trovo interessante in quanto hanno confrontato diverse tecniche tra loro, in particolare un nuovo modello di regressione del ponte con il LASSO, così come la regressione della cresta.

Un altro posto più tattico da controllare potrebbe essere le note del pacchetto per il pacchetto smooth.spline in R. Nota che suggeriscono la relazione qui, osservando che: "con queste definizioni, dove la rappresentazione di base B-spline può essere dichiarata come f = X c (ovvero c è il vettore dei coefficienti di spline), la probabilità logaritmica penalizzata è , e quindi è la soluzione della (regressione della cresta) . "L=(yf)TW(yf)+λcTΣcc(XTWX+λΣ)c=XTWy


Nessun problema @RobertF. Buon pomeriggio.
Nathaniel Payne,

1
Il collegamento al collegamento PDF nel paragrafo 1 è interrotto.
Jthorpe,

3

Non sono sicuro che tu voglia davvero così tanti nodi, vista la trama.

Sembra che potresti avere alcuni piccoli campioni a età particolari; il picco a 74 e i valori 0 a fascia bassa e alta hanno poco senso.

Data l'autorità della fonte che siti, forse vuoi invece spline cubiche limitate, con un numero molto più piccolo di nodi?


1
Grazie Peter - sì, il numero di obs è scarso per grandi e piccini. L'uso di così tanti nodi sembra controintuitivo, quando ho letto per la prima volta in ESL ho fatto un doppio tentativo mentale che fare un nodo su ogni osservazione minimizza la somma residua penalizzata dei quadrati. Suppongo che ci sia la prova se una spline cubica ristretta o una spline di livellamento penalizzata funziona meglio nel prevedere la mia variabile di risposta nel set di dati del test.
RobertF

0

Sono in ritardo a questa discussione, ma guarda la tabella dei dati ... che l'apparente spikeyness nei dati di età superiore ai 70 anni non è un vero riflesso del rischio legato all'età, è un sintomo di dati scarsi e di una certa casualità.

Non vorrai modellarlo usando un nodo all'anno, ciò porterebbe sicuramente a un eccesso di rumore.

Inoltre, troverai uno schema molto diverso se guardi la femmina contro il maschio. La maggior parte del picco nella fascia di età 15-30 sarà Ostetricia.


Ciao Doug - Esatto, ci sono sicuramente meno osservazioni di età superiore ai 70 anni. Un modello di spline penalizzato di un anno per nodo probabilmente porterebbe a zero i coefficienti 70+. L'obiettivo qui sarebbe quello di sostituire la selezione manuale del posizionamento del nodo con un processo automatizzato che si adatta meglio alla relazione non lineare tra età e ammesse alla PI, particolarmente utile in un modello predittivo.
RobertF,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.