Una regressione logistica che massimizza la probabilità necessariamente anche massimizza l'AUC rispetto ai modelli lineari?


13

Dato un set di dati con risultati binari e una matrice predittiva , il modello di regressione logistica standard stima i coefficienti che massimizzano la probabilità binomiale. Quando X è al livello completo \ beta_ {MLE} è unico; quando la separazione perfetta non è presente, è finita.y{0,1}nXRn×pβMLEXβMLE

Questo modello di massima verosimiglianza massimizza anche l'AUC del ROC (alias c statistico) o esiste una stima dei coefficienti βAUCβMLE che otterrà un AUC del ROC più elevato? Se è vero che il MLE non massimizza necessariamente l'AUC del ROC, un altro modo di esaminare questa domanda è "Esiste un'alternativa alla massimizzazione della probabilità che massimizzerà sempre l'AUC del ROC di una regressione logistica?"

Suppongo che i modelli siano gli stessi altrimenti: non stiamo aggiungendo o rimuovendo i predittori in X , o altrimenti cambiando le specifiche del modello, e sto assumendo che i modelli che massimizzano la probabilità e massimizzano l'AUC stanno usando la stessa funzione di collegamento.


2
Sicuramente se, ad esempio, qualche funzione di collegamento genera un adattamento migliore di un logit? A parte questo, buona domanda, se il processo di generazione dei dati può essere assunto come logit. βAUCβMLE
Nutle

Bella domanda, ma considera questo. ROC e AUC vengono utilizzati per confrontare due diversi modelli, quindi se una soluzione per la stima MLE di qualsiasi modello è unica, ciò significa che è possibile ottenere una AUC diversa solo se si modificano le specifiche del modello corrente e si stima una nuova diversa modello via MLE. Quindi a questo punto un'altra domanda sarebbe: esiste un altro metodo di stima "migliore" (algoritmo di massimizzazione ecc.) Diverso dal semplice MLE applicabile allo stesso modello in modo da ottenere stime diverse dei coefficienti che portano a nuovi beta "migliori" con AUC superiore?
Fr1

@Nutle esattamente, sarebbe una specifica diversa
Fr1

@ Fr1 Sì, questo è ciò che significa unico. Ciò che sto insinuando nella mia domanda è qualcosa del tipo "e se ci fosse un'alternativa all'MLE che raggiunge un AUC più elevato?" Se è vero che esiste un modello lineare diverso (un modello diverso dall'MLE) che raggiunge un AUC più elevato, sarebbe interessante conoscerlo.
Sycorax dice di reintegrare Monica il

1
@Sycorax cos'altro possiamo supporre? :) I presupposti sono importanti, poiché se conosciamo il vero DGP con link e variabili utilizzate, l'MLE è una statistica imparziale uniformemente più potente.
Nutle,

Risposte:


11

Non è il caso che .βMLE=βAUC

Per illustrare questo, considera che AUC può scrivere come

P(y^1>y^0|y1=1,y0=0)

In altre parole, l'ordinamento delle previsioni è l'unica cosa che influenza l'AUC . Questo non è il caso della funzione di verosimiglianza. Quindi, come esercizio mentale, supponiamo di avere un singolo predittore e nel nostro set di dati, non vediamo una separazione perfetta (cioè, è finito). Ora, se prendessimo semplicemente il valore del predittore più grande e lo aumentassimo di una piccola quantità, cambieremo la probabilità di questa soluzione, ma non cambierà l'AUC, poiché l'ordinamento dovrebbe rimanere lo stesso. Pertanto, se il vecchio MLE ha massimizzato l'AUC, massimizzerà comunque l'AUC dopo aver modificato il predittore, ma non massimizzerà più la probabilità.βMLE

Quindi, almeno, non è vero che non sia unico; qualsiasi che preserva l'ordinamento delle stime ottiene esattamente la stessa AUC. In generale, poiché l'AUC è sensibile ai diversi aspetti dei dati, ritengo che dovremmo essere in grado di trovare un caso in cui non massimizzi . In effetti, mi azzarderei a immaginare che ciò accada con alta probabilità.βAUCββMLEβAUC

EDIT (spostare il commento in risposta)

Il prossimo passo è dimostrare che il MLE non necessariamente massimizza l'AUC (che non è ancora stato dimostrato). Si può fare ciò prendendo qualcosa come i predittori 1, 2, 3, 4, 5, 6, (con ) con risultati 0, 0, 0, 1, 1, 1, 0. Qualsiasi valore positivo di massimizzerà l'AUC (indipendentemente dal valore di ), ma possiamo scegliere una abbastanza grande da .xx>6βxxβMLE<0


1
(+1) Ah! Naturalmente - poiché si tratta di ordinare, potremmo cambiare arbitrariamente l'intercettazione che ovviamente deve cambiare il valore di probabilità, ma l'ordinamento deve essere lo stesso perché nessuno dei coefficienti di funzionalità è cambiato, quindi l'AUC rimarrà fissa.
Sycorax dice di reintegrare Monica il

+1. L' esempio di modifica funziona con , tuttavia? Se abbiamo bisogno di prendere x abbastanza grande per farlo funzionare con n grande , la probabilità che tali valori esistenti non convergono rapidamente a 0, per un logit fisso? nxn
Nutle

@Nutle: beh, dipende da cosa intendi per . Se prendessimo n copie (predittori + risultati) del mio set di dati giocattolo, sì, il risultato sarebbe valido. Tuttavia, se prendessimo n copie di quel set di predittori e i dati provenissero davvero da un modello di regressione logistica, ciò non accadrebbe quasi mai (come fai notare). Si noti, tuttavia, che qualcosa di simile a questo potrebbe accadere con alta probabilità se la relazione tra i predittori non seguisse realmente un modello di regressione logistica. nnn
Cliff AB,

Sì, grazie, stava parlando delle dimensioni. Quindi, supponendo che sia nota una distribuzione così pesante, l'esempio continuerebbe a valere se la stima MLE fosse corretta per la distribuzione reale? Quello che sto cercando è se la probabilità che tale esista per qualsiasi campione n non si avvicini a 0, la stima MLE non dovrebbe reagire di conseguenza e non agire come farebbe con un valore anomalo? Scusate se non sono del tutto chiaro qui con la dicituraxn
Nutle
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.