Come scegliere la larghezza ottimale del contenitore durante la calibrazione dei modelli di probabilità?


12

Sfondo: ci sono alcune grandi domande / risposte qui su come calibrare i modelli che prevedono le probabilità che si verifichi un risultato. Per esempio

  1. Punteggio di Brier e sua scomposizione in risoluzione, incertezza e affidabilità .
  2. Grafici di calibrazione e regressione isotonica .

Questi metodi spesso richiedono l'uso di un metodo di binning sulle probabilità previste, in modo che il comportamento del risultato (0, 1) sia livellato sul cestino prendendo il risultato medio.

Problema: tuttavia, non riesco a trovare nulla che mi istruisca su come scegliere la larghezza del cestino.

Domanda: Come posso scegliere la larghezza ottimale del cestino?

Tentativo: due larghezze di bin comuni in uso sembrano essere:

  1. Binning di uguale larghezza, ad es. 10 bin ciascuno che copre il 10% dell'intervallo [0, 1].
  2. Il metodo di binning di Tukey discusso qui .

Ma queste scelte dei cassonetti sono le più ottimali se si fosse interessati a trovare gli intervalli nelle probabilità previste che sono maggiormente calibrate?


1
Se il risultato "1" è raro, vale la pena considerare la possibilità di dividere i bin con lo stesso numero di "1" anziché lo stesso numero di campioni. Questo può aiutare a mantenere la discriminazione (AUC) del modello dopo la calibrazione
ihadanny

Risposte:


4

Qualsiasi metodo statistico che utilizza il binning è stato alla fine ritenuto obsoleto. La stima continua della curva di calibrazione è diventata un luogo comune dalla metà degli anni '90. I metodi comunemente usati sono loess (con rilevamento anomalo disattivato), calibrazione logistica lineare e calibrazione logistica spline. Lo approfondisco nel mio libro sulle strategie di modellazione della regressione e nelle note sul corso. Vedi http://www.fharrell.com/p/blog-page.html . Il rmspacchetto R consente di ottenere facilmente curve di calibrazione non parametriche, utilizzando un campione esterno indipendente o utilizzando il bootstrap sul campione di sviluppo del modello originale.


0

Nella mia esperienza il binning è buono per visualizzare le distribuzioni di probabilità, ma di solito è una cattiva idea, se si vuole usare se per test statistici e / o inferenza di parametri. Principalmente perché si limita immediatamente la precisione della larghezza del cestino. Un altro problema comune è quando la variabile non è vincolata, ovvero bisogna introdurre valori di soglia bassi e alti.

Lavorare con le distribuzioni cumulative nello spirito di Kolmogorov-Smirnov elude molti di questi problemi. Ci sono anche molti buoni metodi statistici disponibili in questo caso. (vedi, ad esempio, https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test )

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.