Nella regressione lineare multipla standard, la capacità di adattare le stime dei minimi quadrati (OLS) in due fasi deriva dal teorema di Frisch – Waugh – Lovell . Questo teorema mostra che la stima di un coefficiente per un particolare predittore in un modello lineare multiplo è uguale alla stima ottenuta regredendo i residui di risposta (residui di una regressione della variabile di risposta rispetto alle altre variabili esplicative) rispetto ai residui di predittore (residui da una regressione della variabile predittore rispetto alle altre variabili esplicative). Evidentemente, stai cercando un'analogia con questo teorema che può essere usato in un modello di regressione logistica.
Per questa domanda, è utile ricordare la caratterizzazione variabile latente della regressione logistica :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
In questa caratterizzazione del modello, la variabile di risposta latente non è osservabile, e invece osserviamo l'indicatore che ci dice se la risposta latente è positiva. Questa forma del modello è simile alla regressione lineare multipla, tranne per il fatto che utilizziamo una distribuzione dell'errore leggermente diversa (la distribuzione logistica invece della distribuzione normale) e, cosa più importante, osserviamo solo un indicatore che mostra se la risposta latente è positiva .Y∗iYi
Ciò crea un problema per qualsiasi tentativo di creare un adattamento in due passaggi del modello. Questo teorema di Frisch-Waugh-Lovell dipende dalla capacità di ottenere residui intermedi per la risposta e il predittore di interesse, confrontati con le altre variabili esplicative. Nel caso presente, possiamo ottenere solo residui da una variabile di risposta "classificata". La creazione di un processo di adattamento in due fasi per la regressione logistica richiederebbe l'utilizzo di residui di risposta da questa variabile di risposta categorizzata, senza accesso alla risposta latente sottostante. Questo mi sembra un grosso ostacolo e, sebbene non si riveli impossibile, sembra improbabile che sia possibile adattare il modello in due fasi.
Di seguito ti darò un resoconto di ciò che sarebbe necessario per trovare un processo in due fasi per adattarsi a una regressione logistica. Non sono sicuro se esiste una soluzione a questo problema o se esiste una prova di impossibilità, ma il materiale qui dovrebbe portarti in qualche modo verso la comprensione di ciò che è richiesto.
Come sarebbe una regressione logistica in due fasi? Supponiamo di voler costruire un adattamento in due fasi per un modello di regressione logistica in cui i parametri sono stimati mediante la stima della massima verosimiglianza in ogni fase. Vogliamo che il processo comporti un passaggio intermedio che si adatti ai seguenti due modelli:
Yi=I(Y∗∗i>0)Y∗∗i=α0+αXxi+τi Zi=γ0+γXxi+δiτi∼IID Logistic(0,1),δi∼IID g.
Stimiamo i coefficienti di questi modelli (tramite MLE) e questo produce valori adattati intermedi . Quindi, nel secondo passaggio, inseriamo il modello:α^0,α^X,γ^0,γ^X
Yi=logistic(α^0+α^1xi)+βZ(zi−γ^0−γ^Xxi)+ϵiϵi∼IID f.
Come specificato, la procedura ha un sacco di elementi fissi, ma la funzioni di densità ed in questi passaggi sono lasciato non specificato (se dovrebbero essere distribuzioni a media nulla che non dipendono dai dati). Per ottenere un metodo di montaggio in due fasi sotto questi vincoli bisogna scegliere ed per garantire che la SMV per in questo due fasi algoritmo modello-forma è la stessa come la SMV ottenuto dal modello di regressione logistica one-step sopra.gfgfβZ
Per vedere se questo è possibile, scriviamo prima tutti i parametri stimati dal primo passo:
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
Let modo che la funzione di probabilità logaritmica per il secondo passaggio sia:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
Richiediamo che il valore massimo di questa funzione sia l'MLE del modello di regressione logistica multipla. In altre parole, richiediamo:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
Lascio ad altri la possibilità di determinare se esiste una soluzione a questo problema o una prova della mancanza di una soluzione. Sospetto che la "categorizzazione" della variabile di risposta latente in una regressione logistica renderà impossibile trovare un processo in due fasi.