Sto lavorando a un modello di costo predittivo in cui l'età del paziente (una quantità intera misurata in anni) è una delle variabili predittive. È evidente una forte relazione non lineare tra età e rischio di degenza ospedaliera:
Sto prendendo in considerazione una regressione attenuata che attenua la spline per l'età del paziente. Secondo The Elements of Statistical Learning (Hastie et al, 2009, p.151), il posizionamento ottimale dei nodi è di un nodo per valore unico dell'età dei membri.
Dato che sto conservando l'età come numero intero, la spline di livellamento penalizzata equivale a eseguire una regressione o lazo della cresta con 101 variabili dell'indicatore dell'età distinte, una per valore di età trovata nel set di dati (meno una per riferimento)? La parametrizzazione eccessiva viene quindi evitata poiché i coefficienti su ciascun indicatore di età vengono ridotti verso lo zero.