Domanda filosofica sulla regressione logistica: perché non viene allenato il valore soglia ottimale?


13

Di solito nella regressione logistica, adattiamo un modello e otteniamo alcune previsioni sul set di addestramento. Quindi convalidiamo in modo incrociato quelle previsioni di allenamento (qualcosa come qui ) e decidiamo il valore di soglia ottimale in base a qualcosa come la curva ROC.

Perché non incorporiamo la validazione incrociata della soglia nel modello reale e formiamo il tutto end-to-end?

Risposte:


19

Una soglia non viene allenata con il modello perché la regressione logistica non è un classificatore (cfr. Perché la regressione logistica non si chiama classificazione logistica? ). È un modello per stimare il parametro, p , che regola il comportamento della distribuzione di Bernoulli. Cioè, stai assumendo che la distribuzione della risposta, subordinata alle covariate, sia Bernoulli, e quindi vuoi stimare come il parametro che controlla quella variabile cambia in funzione delle covariate. Si tratta di un modello di probabilità diretta solo . Certo, può essere usato come classificatore successivamente, e talvolta si trova in determinati contesti, ma è ancora un modello di probabilità.


1
Ok, capisco quella parte della teoria (grazie per quella spiegazione eloquente!) Ma perché non possiamo incorporare l'aspetto della classificazione nel modello? Cioè, perché non possiamo trovare p, quindi trovare la soglia e addestrare il tutto end-to-end per ridurre al minimo alcune perdite?
StatsSorceress

4
È certamente possibile (@ di Sycorax risposta parla di questa possibilità). Ma poiché non è quello che è LR stesso, ma piuttosto un aumento ad hoc, dovresti codificare tu stesso lo schema di ottimizzazione completo. Nota BTW, che Frank Harrell ha sottolineato che il processo porterà a quello che potrebbe essere considerato un modello inferiore da molti standard.
gung - Ripristina Monica

1
Hmm. Ho letto la risposta accettata nella domanda correlata qui , e sono d'accordo con essa in teoria, ma a volte nelle applicazioni di classificazione di apprendimento automatico non ci interessiamo dei relativi tipi di errore, ci preoccupiamo solo della "classificazione corretta". In tal caso, potresti allenarti end-to-end come descrivo?
StatsSorceress

4
Come ho già detto, puoi impostare la tua ottimizzazione personalizzata che allenerà il modello e selezionerà la soglia contemporaneamente. Devi solo farlo da solo e il modello finale sarà probabilmente più povero per la maggior parte degli standard.
gung - Ripristina Monica

1
@StatsSorceress "... a volte nella classificazione di apprendimento automatico ...". Dovrebbe esserci una grande enfasi a volte . È difficile immaginare un progetto in cui l' accuratezza è la risposta corretta. Nella mia esperienza, implica sempre precisione e richiamo di una classe minoritaria.
Wayne,

14

È perché la soglia ottimale non è solo una funzione del tasso positivo reale (TPR), del tasso falso positivo (FPR), della precisione o di qualsiasi altra cosa. L'altro ingrediente cruciale è il costo e il pagamento di decisioni corrette e sbagliate .

Se il tuo obiettivo è un raffreddore comune, la tua risposta a un test positivo è di prescrivere due aspirine e il costo di un vero positivo non trattato è un inutile mal di testa di due giorni, quindi la soglia di decisione ottimale (non di classificazione!) È abbastanza diverso da se il tuo obiettivo è una malattia potenzialmente letale e la tua decisione è (a) una procedura relativamente semplice come un'appendicectomia o (b) un intervento importante come mesi di chemioterapia! E nota che sebbene la tua variabile target possa essere binaria (malata / sana), le tue decisioni potrebbero avere più valori (rimandare a casa con due aspirine / eseguire più test / ammettere in ospedale e guardare / operare immediatamente).

In conclusione: se conosci la tua struttura dei costi e tutte le diverse decisioni, puoi certamente formare direttamente un sistema di supporto alle decisioni (DSS), che include una classificazione o previsione probabilistica. Direi, tuttavia, fermamente che discretizzare previsioni o classificazioni tramite soglie non è il modo giusto di procedere.

Vedi anche la mia risposta al precedente thread "Soglia di probabilità di classificazione" . O questa mia risposta . O quello .


4

A parte le preoccupazioni filosofiche, ciò causerebbe difficoltà computazionali.

Il motivo è che le funzioni con uscita continua sono relativamente facili da ottimizzare. Cerchi la direzione in cui aumenta la funzione e poi vai in quel modo. Se modifichiamo la nostra funzione di perdita per includere il passaggio di "taglio", la nostra produzione diventa discreta e quindi anche la nostra funzione di perdita è discreta. Ora, quando modificiamo i parametri della nostra funzione logistica di "un po '" e alteriamo congiuntamente il valore di taglio di "un po'", la nostra perdita dà un valore identico e l'ottimizzazione diventa difficile. Certo, non è impossibile (c'è un intero campo di studio nell'ottimizzazione discreta ) ma l'ottimizzazione continua è di gran lungail problema più semplice da risolvere quando si ottimizzano molti parametri. Convenientemente, una volta che il modello logistico è stato adattato, trovare il cutoff ottimale, sebbene sia ancora un problema di output discreto, ora è solo in una variabile e possiamo solo fare una ricerca della griglia, o alcuni di questi, che è totalmente praticabile in una variabile.


3

Indipendentemente dal modello sottostante, possiamo elaborare le distribuzioni di campionamento di TPR e FPR a una soglia. Ciò implica che possiamo caratterizzare la variabilità di TPR e FPR ad una certa soglia, e possiamo tornare a un compromesso del tasso di errore desiderato.

Una curva ROC è un po 'ingannevole perché l'unica cosa che controlli è la soglia, tuttavia il grafico mostra TPR e FPR, che sono funzioni della soglia. Inoltre, TPR e FPR sono entrambe statistiche , quindi sono soggette ai capricci del campionamento casuale. Ciò implica che se dovessi ripetere la procedura (diciamo per convalida incrociata), potresti trovare un FPR e un TPR diversi a un determinato valore di soglia.

Tuttavia, se possiamo stimare la variabilità tra TPR e FPR, non è necessario ripetere la procedura ROC. Scegliamo solo una soglia in modo che gli endpoint di un intervallo di confidenza (con una certa larghezza) siano accettabili. Ossia, scegli il modello in modo che l'FPR sia plausibilmente al di sotto del massimo specificato dal ricercatore e / o il TPR sia plausibilmente al di sopra del minimo specificato dal ricercatore. Se il tuo modello non riesce a raggiungere i tuoi obiettivi, dovrai costruire un modello migliore.

Naturalmente, quali valori di TPR e FPR sono tollerabili nel tuo utilizzo dipenderanno dal contesto.

Per ulteriori informazioni, consultare Curve ROC per dati continui di Wojtek J. Krzanowski e David J. Hand.


Questo non risponde davvero alla mia domanda, ma è una descrizione molto bella delle curve ROC.
StatsSorceress

In che modo questo non risponde alla tua domanda? Qual è la tua domanda, se non ti chiedi come scegliere una soglia per la classificazione?
Sycorax dice di reintegrare Monica il

2
Non sono a conoscenza di alcuna procedura statistica che funzioni in questo modo. Perché questa ruota quadrata è una buona idea? Che problema risolve?
Sycorax dice di reintegrare Monica il

1
"Come faccio a scegliere una soglia in modo da ridurre i tempi di allenamento?" sembra una domanda molto diversa da quella del tuo post originale.
Sycorax dice di reintegrare Monica il

1
Indipendentemente da ciò, non vedo come questo fa risparmiare tempo. Fare una curva ROC non è la parte più costosa della stima di un modello, quindi spostare la scelta della soglia nella fase di ottimizzazione sembra ad hoc e non necessario.
Sycorax dice di reintegrare Monica il

-2

Di solito nella ricerca biomedica, non utilizziamo un set di formazione --- applichiamo solo la regressione logistica sull'insieme di dati completo per vedere quali predittori sono fattori di rischio significativi per il risultato che stiamo esaminando; o guardare un predittore di interesse controllando l'effetto di altri possibili predittori sul risultato.
Non sono sicuro di cosa significhi valori soglia, ma ci sono vari parametri che si possono cercare di ottimizzare: AUC, valori di cutoff per una dicotomizzazione di una variabile predittiva continua, valori predittivi positivi e negativi, intervalli di confidenza e valori p, tassi di falsi positivi e falsi negativi. La regressione logistica esamina una popolazione di soggetti e valuta la forza e la direzione causale dei fattori di rischio che contribuiscono al risultato di interesse per quella popolazione. È anche possibile "eseguirlo al contrario", per così dire, e determinare il rischio di un individuo del risultato dato i fattori di rischio che l'individuo ha. La regressione logistica assegna a ciascun individuo un rischio del risultato, in base ai suoi singoli fattori di rischio, e per impostazione predefinita è 0,5. Se un soggetto " s la probabilità di avere il risultato (in base a tutti i dati e i soggetti nel modello) è 0,5 o superiore, prevede che avrà il risultato; se inferiore a 0,5, prevede che non lo farà. Tuttavia, è possibile regolare questo livello di cutoff, ad esempio per contrassegnare più individui che potrebbero essere a rischio di avere il risultato, anche se al prezzo di avere più falsi positivi previsti dal modello. È possibile regolare questo livello di cut-off per ottimizzare le decisioni di screening al fine di prevedere quali individui sarebbero invitati ad avere un ulteriore follow-up medico, ad esempio; e per costruire il tuo valore predittivo positivo, valore predittivo negativo e tassi di falsi negativi e falsi positivi per un test di screening basato sul modello di regressione logistica. Puoi sviluppare il modello su metà del tuo set di dati e testarlo sull'altra metà, ma non Devo davvero (e così facendo dimezzerai i tuoi dati di "allenamento" e ridurrai così il potere di trovare predittori significativi nel modello). Quindi sì, puoi "addestrare tutto da capo a capo". Naturalmente, nella ricerca biomedica, si vorrebbe convalidarlo su un'altra popolazione, un altro set di dati prima di dire che i risultati possono essere generalizzati a una popolazione più ampia. Un altro approccio consiste nell'utilizzare un approccio di tipo bootstrap in cui si esegue il modello su un sottocampione della popolazione di studio, quindi sostituire tali soggetti nel pool e ripetere con un altro campione, molte volte (in genere 1000 volte). Se si ottengono risultati significativi nella maggior parte dei casi (ad es. Il 95% delle volte), il modello può essere considerato validato, almeno sui propri dati. Ma ancora una volta, minore è la popolazione dello studio su cui esegui il tuo modello, meno probabile sarà che alcuni predittori siano fattori di rischio statisticamente significativi per il risultato. Ciò è particolarmente vero per gli studi biomedici con un numero limitato di partecipanti.
Utilizzare metà dei dati per "addestrare" il modello e quindi "convalidarlo" sull'altra metà è un onere inutile. Non lo fai per i test t o la regressione lineare, quindi perché farlo con la regressione logistica? Il massimo che farà è farti dire "sì, funziona", ma se usi il tuo set di dati completo, lo decidi comunque. La suddivisione dei dati in insiemi di dati più piccoli comporta il rischio di non rilevare significativi fattori di rischio nella popolazione dello studio (O la popolazione di validazione) quando sono effettivamente presenti, a causa delle dimensioni ridotte del campione, con troppi predittori per la dimensione dello studio e la possibilità che il tuo "campione di validazione" non mostrerà alcuna associazione solo per caso. La logica alla base dell'approccio "treno quindi convalida" sembra essere che se i fattori di rischio identificati come significativi non sono abbastanza forti, quindi non saranno statisticamente significativi se modellati su una metà dei dati scelti casualmente. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. essere statisticamente significativo se modellato su una metà dei dati scelti casualmente. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. essere statisticamente significativo se modellato su una metà dei dati scelti casualmente. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. s l'entità del / i fattore / i di rischio E il loro significato statistico che ne determinano l'importanza e per questo motivo è meglio utilizzare il set di dati completo per costruire il modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. s l'entità del / i fattore / i di rischio E il loro significato statistico che ne determinano l'importanza e per questo motivo è meglio utilizzare il set di dati completo per costruire il modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.