B-Splines VS polinomi di alto ordine in regressione


10

Non ho in mente un esempio o un compito specifico. Sono appena nuovo sull'uso di b-splines e volevo capire meglio questa funzione nel contesto della regressione.

Supponiamo di voler valutare la relazione tra la variabile di risposta e alcuni predittori . I predittori includono alcune variabili numeriche e anche alcune categoriali.yX1,X2,...,Xp

Diciamo che dopo aver inserito un modello di regressione, una delle variabili numeriche, ad esempio è significativa. Un passo logico in seguito è valutare se sono necessari polinomi di ordine superiore, ad esempio: e per spiegare adeguatamente la relazione senza un eccesso di adattamento.X1X12X13

Le mie domande sono:

  1. A che punto hai scelto tra le b-spline o il semplice polinomio di ordine superiore. ad es. in R:

    y ~ poly(x1,3) + x2 + x3
    

    vs

     y ~ bs(x1,3) + x2 + x3
    
  2. Come puoi usare i grafici per informare la tua scelta tra quei due e cosa succede se non è davvero chiaro dai grafici (ad es. A causa di enormi quantità di punti dati)

  3. Come valuteresti i termini di interazione bidirezionale tra e diciamoX2X3

  4. In che modo cambia quanto sopra per diversi tipi di modelli

  5. Considereresti di non usare mai polinomi di alto ordine e di montare sempre b-spline e penalizzare l'elevata flessibilità?



Dato quanto è ben sviluppato mgcv, perché non usare modelli additivi (generalizzati). La selezione della scorrevolezza è automatica e i metodi inferenziali sono ben sviluppati.
generic_user

Risposte:


17

Di solito considererei solo spline piuttosto che polinomi. I polinomi non possono modellare soglie e sono spesso indesiderabilmente globali, vale a dire che le osservazioni su un intervallo del predittore hanno una forte influenza su ciò che il modello fa su un intervallo diverso ( Magee, 1998, The American Statistician e Frank Harrell's Regression Modeling Strategies ). E, naturalmente, le spline ristrette che sono lineari al di fuori dei nodi estremi sono migliori per l'estrapolazione o persino per l'intrapolazione a valori estremi dei predittori.

Un caso in cui potresti voler prendere in considerazione i polinomi è quando è importante spiegare il tuo modello a un pubblico non tecnico. Le persone capiscono i polinomi meglio delle spline. (Modifica: Matthew Drury sottolinea che le persone possono solo pensare di capire i polinomi meglio delle spline. Non mi schierò dalla parte di questa domanda.)

Le trame spesso non sono molto utili per decidere tra diversi modi di affrontare la non linearità. Meglio fare la validazione incrociata. Questo ti aiuterà anche a valutare le interazioni o a trovare una buona penalità.

Infine, la mia risposta non cambia con il tipo di modello, perché i punti sopra riportati sono validi per qualsiasi modello statistico o ML.


Grazie mille per la tua risposta, è stato molto utile. Solo una domanda di follow-up veloce. Esiste un modo "all'avanguardia" per trovare i nodi? La mia ipotesi migliore sarebbe quella di 1) Utilizzare l'intuizione, ad esempio: se la variabile rappresenta il tempo in termini di mesi, utilizzare i nodi ogni 6 o 12? 2) introdurre una sequenza che attraversa la gamma della variabile e usare la validazione incrociata per trovare forse i nodi ottimali?
Vasilis Vasileiou,

8
Le persone pensano di capire i polinomi meglio delle spline.
Matthew Drury,

3
Per quanto riguarda il posizionamento dei nodi: la convalida incrociata è un approccio, ma ad essere sincero, penso che i risultati saranno abbastanza insensibili per conoscere il posizionamento, purché i nodi siano posizionati ragionevolmente e non si raggruppino troppo. Frank Harrell ha una tabella con posizionamenti euristici di nodi in termini di quantili della distribuzione del predittore in Regressione Modeling Strategies .
Stephan Kolassa,

1
Mentre la tua risposta è totalmente valida in questo contesto, la tua affermazione è molto forte considerando che molti processi del mondo reale possono essere modellati meglio dai polinomi.
Koalo,

6

Nella sezione 7.4.5 di "Gli elementi dell'apprendimento statistico", si dice che le spline spesso danno risultati superiori alla regressione polinomiale, perché:

  • Produce accoppiamenti flessibili;
  • Produce stime più stabili;
  • I polinomi possono produrre risultati indesiderati ai confini.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.