Overfitting di un modello di regressione logistica


28

È possibile equipaggiare troppo un modello di regressione logistica? Ho visto un video in cui si diceva che se la mia area sotto la curva ROC è superiore al 95%, è molto probabile che venga adattata in modo eccessivo, ma è possibile utilizzare un modello di regressione logistica?


1
Puoi dire quale video, o almeno dare un po 'più di contesto?
Glen_b -Restate Monica

2
Certo @Glen_b, il video era questo: link Il commento era a 40min. Diceva quella cosa: quando i ROC avevano l'AUC tra 0,5 e 0,6 era Scarso. Se tra 0,6 e 0,7 è inferiore alla media. Se tra 0,7 e 0,75 è una media / buona. Tra 0,75 e 0,8 è buono. Se tra 0,8 e 0,9 è eccellente. Se superiore a 0,9 è sospetto e se superiore a 0,95 è sovraccarico. Ho trovato questa spiegazione molto facile da capire, ma è giusto? Perché sto cercando qualcosa per il backup di quel pensiero, ma non sto trovando.
carlosedubarreto,

E Glen_B, la spiegazione fornita da @AdamO sembra che la spiegazione che ho visto nel video non fosse esattamente corretta, ma forse ho frainteso la spiegazione di Adam. Queste cose di Statisc sono molto complesse, ma è un vero piacere scavare in profondità. :)
carlosedubarreto,

Penso che la spiegazione di AdamO sia buona (l'ho votata a fondo), ma le domande dovrebbero essere risorse permanenti; un lettore successivo (ad esempio qualcuno con una domanda simile) potrebbe desiderare il contesto di sapere cosa è stato detto. Penso che la tua descrizione nel commento offra un contesto sufficiente per la maggior parte delle persone e il collegamento farà per il resto. Quindi grazie! Hai reso la tua domanda più utile.
Glen_b -Reinstate Monica,

Molte grazie @Glen_b, sto imparando come usare questo fantastico strumento che abbiamo (questo forum). Terrò a mente il tuo consiglio quando faccio nuove domande.
carlosedubarreto,

Risposte:


36

Sì, è possibile equipaggiare eccessivamente i modelli di regressione logistica. Ma prima, vorrei affrontare il punto sull'AUC (Area sotto la curva caratteristica operativa del ricevitore): non ci sono regole empiriche universali con l'AUC, mai e poi mai.

Che cos'è l'AUC è la probabilità che un positivo (o caso) campionato in modo casuale abbia un valore di marcatore più alto di un negativo (o controllo) perché l'AUC è matematicamente equivalente alla statistica U.

Ciò che l'AUC non è una misura standardizzata di precisione predittiva. Gli eventi altamente deterministici possono avere AUC a predittore singolo pari o superiori al 95% (come nella meccatronica controllata, robotica o ottica), alcuni modelli complessi di previsione del rischio logistico multivariabile hanno AUC del 64% o inferiori come la previsione del rischio di cancro al seno, e quelli sono livelli di accuratezza predittiva notevolmente elevati.

Un valore AUC ragionevole, come con un'analisi di potenza, è prespecificato raccogliendo la conoscenza del background e degli obiettivi di uno studio apriori . Il medico / ingegnere descrive ciò che vogliono e tu, lo statistico, risolvi un valore AUC target per il tuo modello predittivo. Quindi inizia l'indagine.

È infatti possibile sovrautilizzare un modello di regressione logistica. A parte la dipendenza lineare (se la matrice del modello è di rango carente), puoi anche avere una concordanza perfetta, ovvero che la trama dei valori adattati rispetto a Y discrimina perfettamente casi e controlli. In tal caso, i tuoi parametri non sono convergenti ma risiedono semplicemente da qualche parte nello spazio limite che dà una probabilità di . A volte, tuttavia, l'AUC è 1 solo per caso.

2βpnπ(1π)π=Prob(Y=1)p previsione ad ) dei risultati binari viene eseguita meglio con i metodi di apprendimento automatico. Comprendere l'analisi discriminante lineare, i minimi quadrati parziali, la previsione del vicino più vicino, il potenziamento e le foreste casuali sarebbe un ottimo punto di partenza.


y

π

Come si determina il valore AUC appropriato a cui puntare?
Kevin H. Lin,

1
@ KevinH.Lin Dipende dalla natura della domanda. Più in cui si incorporano conoscenze contestualmente appropriate, meglio è. Questa sarebbe la prevalenza o l'onere di base della malattia o della condizione che il modello valuta, le prestazioni dei modelli (concorrenti) esistenti, i compromessi in termini di rapporto costo-efficacia e le politiche relative all'adozione di nuove pratiche e / o raccomandazioni. Niente al riguardo è in bianco e nero, ma come tante altre cose, devi argomentare in modo convincente per convincere e ragionare a favore di un valore AUC che tu, come statistico, prespecifica.
AdamO,

1
@ KevinH.Lin Non credo che una risposta valida sarà chiara e concisa come quella che sembra volere. È come chiedere "Quale macchina dovrei comprare?" :) Ti suggerisco di recensire gli articoli che hanno esplorato le AUC nell'area di ricerca pertinente che ti interessa. Ho lavorato in gran parte su modelli di previsione del rischio per il cancro al seno e attraverso le opere di Tice, Gail e Barlow, tra gli altri, ho visto che un AUC di 0,65 è molto interessante per i modelli di previsione basati sulla popolazione che hanno una prevalenza inferiore a 1-20 casi di incidenti per 5.000 persone-anni a rischio utilizzando 7 fattori di rischio con RR tra 1,5 e 3
AdamO

6

In parole semplici ... un modello di regressione logistica troppo adattato ha una grande varianza, significa cambiamenti di decisioni diverse in gran parte per piccoli cambiamenti di grandezza variabile. prendi in considerazione l'immagine seguente il modello logistico più adatto a quello che hai scelto, la sua decisione è molto ampia. di alti e bassi mentre quello centrale è in forma ha una varianza moderata e una propensione moderata. quello di sinistra è sottovalutato ha un'alta propensione ma molto meno varianza. ancora una cosa_ Un modello di regressione sovradimensionato ha troppe funzionalità mentre il modello underfit ne ha molto meno. di funzionalità. immagine che mostra il modello di resessione logistica underfit, justfit e overfit.  L'indicatore blu colured sta mostrando una decisione diversa.


8
Aggiungi un riferimento per l'immagine (in realtà il corso di Andrew Ng).
Alexander Rodin,

5

Puoi esagerare con qualsiasi metodo, anche se si adatta a tutta la popolazione (se la popolazione è limitata). Esistono due soluzioni generali al problema: (1) stima della massima probabilità penalizzata (regressione della cresta, rete elastica, lazo, ecc.) E (2) l'uso di priori informativi con un modello bayesiano.

YYYY


4

Esiste un modello, a parte la regressione logistica, che non è possibile fare troppo?

Il sovradimensionamento nasce fondamentalmente perché ci si adatta a un campione e non all'intera popolazione. Gli artefatti del tuo campione possono sembrare caratteristiche della popolazione e non lo sono, e quindi fanno troppo male alle ferite.

È simile a una questione di validità esterna. Usando solo il campione, stai cercando di ottenere un modello che ti offra le migliori prestazioni sulla popolazione reale che non riesci a vedere.

Certo, alcune forme o procedure di modello hanno maggiori probabilità di sovralimentarsi rispetto ad altre, ma nessun modello è mai veramente immune da un eccesso di adattamento, vero?

Anche la convalida al di fuori del campione, le procedure di regolarizzazione ecc. Possono solo evitare un eccesso di adattamento, ma non esiste un proiettile d'argento. In effetti, se si dovesse stimare la propria fiducia nel fare una previsione del mondo reale basata su un modello adattato, si deve sempre presumere che si sia effettivamente verificato un certo grado di overfitting.

In che misura può variare, ma anche un modello convalidato su un set di dati di blocco raramente produrrà prestazioni in-wild che corrispondono a quanto ottenuto sul set di dati di blocco. E il sovradimensionamento è un grande fattore causale.


0

Quello che facciamo con Roc per verificare il sovradimensionamento è separare casualmente il set di dati in allenamento e valutazione e confrontare l'AUC tra questi gruppi. Se l'AUC è "molto" (non esiste anche una regola empirica) più grande nell'allenamento, potrebbe esserci un eccesso di adattamento.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.