Come ha sottolineato Kjetil B Halvorsen, è a suo modo un miracolo che la regressione lineare ammetta una soluzione analitica. E questo è solo in virtù della linearità del problema (rispetto ai parametri). In OLS, hai
che ha le condizioni del primo ordine
- 2 ∑
∑i(yi−x′iβ)2→minβ,
Per un problema con
p−2∑i(yi−x′iβ)xi=0
pvariabili (compresi costante, se necessario, ci sono alcuni regressione attraverso i problemi di origine, anche), questo è un sistema con
equazioni e
p incognite. Ancora più importante, è un sistema lineare, quindi puoi trovare una soluzione usando la
teoria e la pratica dell'algebra lineare standard . Questo sistema avrà una soluzione con probabilità 1 a meno che tu non abbia variabili perfettamente collineari.
pp
Ora, con la regressione logistica, le cose non sono più così facili. Annotando la funzione di verosimiglianza log,
e prendendo la sua derivata per trovare l'MLE, otteniamo
∂ l
l(y;x,β)=∑iyilnpi+(1−yi)ln(1−pi),pi=(1+exp(−θi))−1,θi=x′iβ,
I parametri
β inseriscono questo in un modo molto non lineare: per ogni
i c'è una funzione non lineare e vengono sommati. Non esiste una soluzione analitica (tranne probabilmente in una situazione banale con due osservazioni, o qualcosa di simile), e bisogna usare
metodi di ottimizzazione non lineareper trovare le stime
beta .
∂l∂β′=∑idpidθ(yipi−1−yi1−pi)xi=∑i[yi−11+exp(x′iβ)]xi
βiβ^
Uno sguardo un po 'più approfondito al problema (prendendo la seconda derivata) rivela che questo è un problema di ottimizzazione convessa di trovare un massimo di una funzione concava (una parabola multivariata glorificata), quindi esiste una delle due e qualsiasi algoritmo ragionevole dovrebbe trovarla piuttosto rapidamente, o le cose esplodono all'infinito. Quest'ultimo accade alla regressione logistica quando per alcuni cProb[Yi=1|x′iβ>c]=1c, cioè hai una previsione perfetta. Questo è un artefatto piuttosto spiacevole: si potrebbe pensare che quando si ha una previsione perfetta, il modello funziona perfettamente, ma abbastanza curiosamente, è il contrario.