Se non riesci a farlo ortogonalmente, fallo crudo (regressione polinomiale)


11

Quando si esegue la regressione polinomiale per su , le persone a volte usano polinomi grezzi, a volte polinomi ortogonali. Ma quando usano ciò che sembra completamente arbitrario.XYX

Qui e qui vengono utilizzati polinomi grezzi. Ma qui e qui , i polinomi ortogonali sembrano dare i risultati corretti. Cosa, come, perché ?!

Al contrario, quando si impara a conoscere la regressione polinomiale da un libro di testo (ad es. ISLR ), che non menziona nemmeno i polinomi grezzi o ortogonali, viene fornito solo il modello da adattare.

Quindi, quando dobbiamo usare cosa?
E perché i singoli valori p per , ecc. Differiscono molto tra questi due valori?X 2XX2


1
Dovresti pensare a quali valori p sono diversi quando si adatta lo stesso modello agli stessi dati usando polinomi grezzi e ortogonali e la loro interpretazione. E le previsioni del modello?
Scortchi - Ripristina Monica

@Scortchi Ho aggiunto le informazioni pertinenti alla mia domanda.
l7ll7,

4
Un altro buon motivo per usare i polinomi ortogonali è la stabilità numerica; la matrice di progettazione associata per l'adattamento nella base monomiale può essere piuttosto mal condizionata per adattamento di alto grado poiché i monomi di ordine superiore sono "quasi quasi linearmente dipendenti" (un concetto che potrebbe essere reso matematicamente più preciso), mentre la matrice di progettazione per i polinomi ortogonali sono un po 'meglio comportati. Ho discusso qui il caso delle ascisse equisperse (Grammo) , ma l'affare è simile nel caso non equispaccato.
JM non è uno statistico il

(Tuttavia, non si dovrebbe adattarsi ai polinomi di alto grado senza una buona ragione per farlo.)
JM non è uno statistico

Risposte:


7

Le variabili e non sono linearmente indipendenti. Quindi, anche se non v'è alcun effetto di secondo grado, l'aggiunta di al modello modificherà l'effetto stimato di .X 2 X 2 XXX2X2X

Diamo un'occhiata con una simulazione molto semplice.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

Ora con un termine quadratico nel modello adatto.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

Ovviamente il test omnibus è ancora significativo, ma penso che il risultato che stiamo cercando non sia questo. La soluzione è utilizzare i polinomi ortogonali.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

Si noti che i coefficienti di xnel primo modello e di poly(x,2)1nel secondo modello non sono uguali e anche le intercettazioni sono diverse. Questo perché polyfornisce vettori ortonormali, che sono anche ortogonali al vettore rep(1, length(x)). Quindi poly(x,2)1non è, xma piuttosto (x -mean(x))/sqrt(sum((x-mean(x))**2))...

Un punto importante è che i test Wald, in quest'ultimo modello, sono indipendenti. Puoi usare i polinomi ortogonali per decidere fino a che punto vuoi andare, semplicemente guardando il test di Wald: qui decidi di mantenere ma non . Ovviamente troverai lo stesso modello confrontando i primi due modelli montati, ma è più semplice in questo modo - se consideri di salire a livelli più alti, è davvero molto più semplice.X 2XX2

Dopo aver deciso quali termini mantenere, potresti voler tornare ai polinomi grezzi e per l'interpretazione o per la previsione.X 2XX2


+1 Finalmente una risposta chiara! Grazie! Prima di accettare, puoi dirmi, ci sono altre statistiche, come R ^ 2 o la statistica F che dovrei leggere meglio del riassunto del diagramma ortogonale rispetto a quello grezzo? Oltre a tracciare le variabili, l'adattamento con i polinomi grezzi è utile per qualsiasi altra cosa in questo scenario?
l7ll7,

E quando ho più predittori, lo stesso vale?
l7ll7,

Come "useresti i polinomi ortogonali per decidere se includere o meno un termine quadratico"?
Scortchi - Ripristina Monica

1
Il punto è che il test dell'effetto di ordine più elevato, in questo caso il quadratico, è lo stesso sia che si utilizzino polinomi grezzi che ortogonali. Allora perché preoccuparsi dei polinomi ortogonali?
Scortchi - Ripristina Monica

4
Bene, ovviamente non dovresti semplicemente fare quei test marginali in quel modello; dovresti rientrare dopo aver scartato l'effetto di ordine più alto. I polinomi ortogonali ti risparmiano il fastidio, consentendo una semplice procedura di step-down - forse potresti illustrare con un termine cubico.
Scortchi - Ripristina Monica

3

Per dare una valutazione ingenua della situazione:

in generale: supponiamo di avere due diversi sistemi di funzioni di base , così come per alcune funzioni (hilbert-) spazio, solito , ovvero lo spazio di tutte le funzioni integrabili al quadrato. { ˜ p } n = 1 L 2 ( [ a , b ] ){pn}n=1{p~}n=1L2([a,b])

Ciò significa che ciascuna delle due basi può essere utilizzata per spiegare ogni elemento di , ovvero per che hai per alcuni coefficienti e , (nel senso ): L2([a,b])yL2([a,b])θnθ~nRn=1,2,L2

n=1θ~np~n=y=n=1θnpn.

Tuttavia, se si troncano entrambi gli insiemi di funzioni di base su un numero , ovvero si prende e questi insiemi di funzioni di base troncati sono molto probabilmente due descrivono "parti diverse" di .k<

{pn}n=1k
{p~}n=1k,
L2([a,b])

Tuttavia, qui nel caso speciale in cui una base, , è solo un'ortogonalizzazione dell'altra base, , la previsione complessiva di sarà la stessa per ogni modello troncato ( e la loro controparte ortogonale descriverà lo stesso sottospazio -dimensionale di ).{p~}n=1{pn}n=1y{p}n=1kkL2([a,b])

Ma ogni funzione di base individuale delle due basi "diverse" fornirà un contributo diverso a questa predizione (ovviamente poiché le funzioni / i predittori sono diversi!) Risultando in valori e coefficienti diversi.p

Quindi, in termini di previsione non c'è (in questo caso) alcuna differenza.

Da un punto di vista computazionale una matrice di modello costituita da funzioni di base ortogonale ha buone proprietà numeriche / computazionali per lo stimatore dei minimi quadrati. Mentre allo stesso tempo dal punto di vista statistico, l'ortogonalizzazione risulta in stime non correlate, dato che secondo le ipotesi standard.var(θ~^)=Iσ²


La domanda naturale sorge se esiste un sistema di base troncato al meglio. Tuttavia, la risposta alla domanda non è né semplice né unica e dipende ad esempio dalla definizione della parola "migliore", ovvero da ciò che si sta tentando di archiviare.


1
(+1) Nessuna differenza in termini di previsione; e si potrebbe dire nessuna differenza in termini di inferenza significativa.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.