Aggiunta di pesi per set di dati fortemente distorti nella regressione logistica


9

Sto usando una versione standard della regressione logistica per adattare le mie variabili di input alle variabili di output binarie.

Tuttavia, nel mio problema, le uscite negative (0s) superano di gran lunga le uscite positive (1s). Il rapporto è 20: 1. Quindi, quando alleno un classificatore, sembra che anche le caratteristiche che suggeriscono fortemente la possibilità di un output positivo abbiano ancora valori molto bassi (altamente negativi) per i loro parametri corrispondenti. Mi sembra che ciò accada perché ci sono troppi esempi negativi che tirano i parametri nella loro direzione.

Quindi mi chiedo se posso aggiungere pesi (diciamo usando 20 invece di 1) per gli esempi positivi. È probabile che ciò avvenga affatto? E se è così, come dovrei aggiungere i pesi (nelle equazioni di seguito).

La funzione di costo è simile alla seguente:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

Il gradiente di questa funzione di costo (wrt ) è:θ

grad=((h(xθ)y)X)

Qui = numero di casi di test, = matrice delle caratteristiche, = vettore di output, = funzione sigmoid, = parametri che stiamo cercando di imparare.x y h θmxyhθ

Finalmente corro la discesa del gradiente per trovare il più basso possibile. L'implementazione sembra funzionare correttamente.J


Ciao, ho esattamente lo stesso problema che hai descritto. Nei miei dati molti esempi sono negativi e pochissimi positivi, e per me è più importante classificare correttamente il positivo, anche se ciò significa perdere la classificazione di alcuni aspetti negativi. Sembra che stia anche applicando gli stessi metodi come te, poiché sto usando la stessa funzione di costo e le stesse equazioni del gradiente. Finora ho eseguito alcuni test e ho ottenuto i seguenti risultati: - Con 7 parametri , Dimensione del campione di allenamento: 225000 , Dimensione del campione di prova: 75000 Risultati: precisione del 92% , sebbene nei casi positivi solo l'11% p
Cartz

1
Quello che stai facendo è confondere una funzione di perdita con la massima probabilità. La mle non ponderata sta facendo la "cosa giusta" da una prospettiva inferenziale, e riflette quanto sia raro il risultato per ciascuna specifica di covariata. Potresti anche avere una separazione - questo accadrebbe che un particolare insieme di covariate in grado di prevedere perfettamente la risposta nei dati di addestramento - questo porterebbe a grandi valori negativi.
probabilityislogic

2
La classificazione non è un buon obiettivo e non è il modo in cui è stata sviluppata la regressione logistica. È la nozione di classificazione che causa tutti i problemi elencati qui. Attenersi alle probabilità previste e alle regole di valutazione della precisione corrette
Frank Harrell,

1
@arahant Questo è solo parzialmente vero. Una regressione logistica binaria con un collegamento logit è ancora valida in quanto i coefficienti sulle covariate sono MLE e riflettono l'effetto che tali variabili hanno sulle probabilità della classe 1 rispetto alla classe 0. Tuttavia, in un progetto case-control, l'intercettazione è sempre fisso per riflettere la proporzione della classe 1 alla classe 0, ed è perfettamente valido regolare il termine di intercettazione per assegnare le classi in linea con, ad esempio, una funzione di costo dell'errata classificazione o qualche altro processo, perché ciò non modifica i coefficienti sulle variabili.
Sycorax dice di reintegrare Monica il

1
Da dove è venuta l'idea che sia necessario / desiderato / desiderabile un taglio?
Frank Harrell,

Risposte:


8

Non sarebbe più la massima probabilità. Una distribuzione così estrema di presenta problemi solo se si utilizza un classificatore, ovvero se si calcola la proporzione classificata correttamente, una regola di punteggio impropria. Le stime di probabilità dalla probabilità massima standard sono valide. Se il numero totale di "positivi" è inferiore di 15 volte il numero di variabili candidate, la stima della probabilità massima penalizzata può essere in ordine.Y


Frank, c'è un riferimento o qualcosa per supportare il tuo dettaglio "15 volte ..."? Ho alcuni squilibri simili in alcuni dati che sto usando la regressione logistica al posto di un metodo ROC sviluppato da altri ricercatori. Di recente mi sono imbattuto nel bias di piccolo campione e ho aggiunto un'opzione per la riduzione del bias di Firth come opzione adatta nel mio codice / pacchetto. Mentre sto scrivendo questo per un diario, sarebbe utile avere qualcosa da citare insieme a regole empiriche come questa. Mi scuso se il riferimento è il tuo libro RMS in quanto è seduto sui miei scaffali, ma non ho ancora guardato lì.
Gavin Simpson,

Ci sono documenti sulla propensione per piccoli campioni e sul valore della penalità Firth. Non li ho a portata di mano. Per quanto riguarda 15: 1 vedi biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
Frank Harrell

Grazie Frank - il problema 15: 1 era quello che cercavo di più. Ho alcune pubblicazioni sul pregiudizio per piccoli campioni e sul metodo di Firth, ma se alla fine avessi qualcosa a portata di mano, ti sarei molto grato se mi facessi sapere di cosa si trattava.
Gavin Simpson,

3
Nel caso in cui qualcun altro dovesse fraintendere quanto sopra come ho fatto all'inizio. Il 20: 1 nella domanda è il rapporto tra osservazioni negative e positive. Il 15: 1 nella risposta di Frank Harrell è qualcos'altro: il rapporto tra osservazioni positive e variabili indipendenti candidate.
Adam Bailey,

Una distribuzione estrema presenta anche un problema aumentando la possibilità di una separazione quasi completa, specialmente se si hanno predittori categorici. La penalizzazione aiuta anche qui.
probabilityislogic

3

In casi come questo, è spesso meglio utilizzare un collegamento flessibile, anziché il collegamento logistico, in grado di catturare questa asimmetria. Ad esempio un skew-normal, GEV , sinh-arcsinh e i relativi riferimenti. Ce ne sono molti altri ma non posso pubblicare più di 2 link.


Potete fornire qualche spiegazione per altre funzioni di collegamento migliori?
DW,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.