Dati due modelli di regressione lineare, quale modello avrebbe prestazioni migliori?


14

Ho seguito un corso di apprendimento automatico nel mio college. In una delle domande, questa domanda è stata posta.

Modello 1:

y=θx+ϵ
Modello 2:
y=θx+θ2x+ϵ

Quale dei modelli di cui sopra si adatterebbe meglio ai dati? (supponiamo che i dati possano essere modellati usando la regressione lineare)

La risposta corretta (secondo il professore) è che entrambi i modelli funzionerebbero ugualmente bene. Tuttavia, credo che il primo modello sarebbe più adatto.

Questa è la ragione dietro la mia risposta. Il secondo modello, che può essere riscritto come αx+ϵ , α=θ+θ2 non sarebbe lo stesso del primo modello. α è in effetti una parabola e quindi ha un valore minimo ( 0.25 in questo caso). Ora, per questo motivo, l'intervallo di θ nel primo modello è maggiore dell'intervallo di α nel secondo modello. Quindi se i dati fossero tali che l'adattamento migliore avesse una pendenza inferiore a 0.25 , il secondo modello avrebbe prestazioni molto scarse rispetto al primo. Tuttavia, nel caso in cui la pendenza della misura migliore fosse maggiore di0.25 , entrambi i modelli avrebbero prestazioni ugualmente buone.

Quindi il primo è migliore o sono entrambi uguali?


3
Penso che tu abbia ragione. Richiedere che un parametro sia espressibile come θ + θ 2 (per alcuni θ ) impone effettivamente un vincolo su ciò che α è possibile. Ciò significa che il secondo modello può esprimere meno relazioni rispetto al primo, in quanto ora è essenzialmente un problema di ottimizzazione vincolata. Il tuo ragionamento mi sembra solido. αθ+θ2θα
Matthew Drury,

@MatthewDrury Ho appena capito dove ho sbagliato, dai un'occhiata alla risposta qui sotto (e al commento)
kush,

3
Vedo il tuo commento, ma è una ginnastica abbastanza seria supporre che prenderebbe valori complessi. Vorrei sicuramente frequentare alcune ore d'ufficio per parlare con il tuo professore. Ne trarrai una buona discussione in entrambi i modi. θ
Matthew Drury,

1
Non mi è chiaro da dove viene il -0.25. Puoi chiarire?
Mad Jack,

1
Sarei interessato a come il tuo professore adattava ogni modello all'insieme di dati a due punti . Con Model 1 e θ = - 1 l'adattamento è perfetto, ma come stimerebbe θ nel Modello 2 per ottenere un adattamento perfetto? {(1,-1),(2,-2)}θ=-1θ
whuber

Risposte:


9

Il modello 2 può essere scritto come: Questo sembra simile al modello 1, solo con una diversa notazione per gli iperparametri ( θ , β ). Tuttavia, per il modello 1 possiamo scrivere θ = ( X

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

Ma dal momento che nel modello 2 abbiamo che allora come lei ha ricordato infatti la gamma di β dovrebbe appartenere a [ - 0,25 , + ]

β=θ+θ2,
β^[0.25,+] per . Il che porterà alla differenza in questi 2 modelli.θR

Così nel modello 2 si vincola la stima dei coefficienti differenza modello 1. Per rendere questo più chiaro, va notato che in modello è ottenuto minimizzando la funzione di perdita quadrato θ = arg min θ R ( y - X θ )θ^ Tuttavia nel modello 2, la stima è ottenuta attraverso β =arg min β - 0,25 (y

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
β^=argminβ0.25  (yXβ)(yXβ)
che potrebbe portare a un risultato diverso.

1
Questo ha senso, mi ha solo colpito il fatto che non ci sono vincoli su nel secondo modello! Nel caso θ + θ 2 sia negativo, θ potrebbe avere valori complessi. Tuttavia, ciò non influisce sul modello, giusto? Non ho un rappresentante per il voto, ma grazie mille! θθ+θ2θ
Kush,

@kush Controlla la mia risposta modificata che risolve anche la tua preoccupazione
Wis

1

Non sono sicuro di aver capito il tuo ragionamento. Se prendi:

e y = θ x + ϵ

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2 , ma questo non ha nulla a che fare con l'adattamento.


5
θ(-,)α(-0.25,)X
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.