I gradi di libertà sono non interi in numerosi contesti. Infatti in alcune circostanze è possibile stabilire che i gradi di libertà per adattare i dati per alcuni modelli particolari devono essere compresi tra un certo valore e .kk+1
Di solito pensiamo ai gradi di libertà come al numero di parametri liberi, ma ci sono situazioni in cui i parametri non sono completamente liberi e possono quindi essere difficili da contare. Ciò può accadere durante il livellamento / regolarizzazione, ad esempio.
I casi di regressione ponderata localmente / metodi del kernel e spline uniformi sono esempi di tale situazione: un numero totale di parametri liberi non è qualcosa che puoi facilmente contare sommando i predittori, quindi è necessaria un'idea più generale dei gradi di libertà.
Nei modelli di additivi generalizzati su cui gam
si basa in parte, Hastie e Tibshirani (1990) [1] (e in effetti in numerosi altri riferimenti) per alcuni modelli in cui possiamo scrivere , i gradi di libertà sono talvolta considerati (discutono anche di o ). Il primo è coerente con l'approccio più usuale in cui entrambi funzionano (ad es. In regressione, dove in situazioni normali sarà la dimensione della colonna di ), ma quando è simmetrico e idempotente, tutti e tre le formule sono le stesse.y^=Aytr(A)tr(AAT)tr(2A−AAT)tr(A)XA
[Non ho questo riferimento a portata di mano per controllare abbastanza i dettagli; un'alternativa degli stessi autori (oltre a Friedman) di cui è facile procurarsi è Elements of Statistical Learning [2]; vedere ad esempio l'equazione 5.16, che definisce i gradi effettivi di libertà di una spline di smoothing come (nella mia notazione)]tr(A)
Più in generale, Ye (1998) [3] ha definito i gradi di libertà generalizzati come , che è la somma delle sensibilità dei valori adattati alle loro corrispondenti osservazioni. A sua volta, ciò è coerente con dove funziona quella definizione. Per usare la definizione di Ye devi solo essere in grado di calcolare e perturbare i dati di una piccola quantità (al fine di calcolare numericamente). Questo lo rende ampiamente applicabile.∑i∂y^i∂yitr(A)y^∂y^i∂yi
Per i modelli come quelli montati da gam
, quelle varie misure non sono generalmente intere.
(Consiglio vivamente di leggere la discussione di questi riferimenti su questo argomento, sebbene la storia possa diventare piuttosto complicata in alcune situazioni. Vedi, ad esempio [4])
[1] Hastie, T. e Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman and Hall.
[2] Hastie, T., Tibshirani, R. e Friedman, J. (2009),
The Elements of Statistical Learning: Data Mining, Inference, and Prediction , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Ye, J. (1998),
"Sulla misurazione e correzione degli effetti del data mining e selezione dei modelli"
Journal of American Statistical Association , vol. 93, n. 441, pagg. 120-131
[4] Janson, L., Fithian, W. e Hastie, T. (2013),
"Gradi effettivi di libertà: una metafora imperfetta"
https://arxiv.org/abs/1312.7851