Confronto tra le distribuzioni delle prestazioni di generalizzazione


10

Supponi di avere due metodi di apprendimento per un problema di classificazione , e , e di stimare le loro prestazioni di generalizzazione con qualcosa come ripetute convalide incrociate o bootstrap. Da questo processo ottengo una distribuzione dei punteggi e per ciascun metodo attraverso queste ripetizioni (ad esempio la distribuzione dei valori AUC ROC per ciascun modello).AB PAPB

Guardando queste distribuzioni, potrebbe essere che ma che (cioè le prestazioni di generalizzazione attese di siano più alte di , ma che ci sia più incertezza su questa stima).μAμBσAσBAB

Penso che questo sia chiamato il dilemma della varianza nella regressione.

Quali metodi matematici posso usare per confrontare e ed eventualmente prendere una decisione informata su quale modello usare?PAPB

Nota: per semplicità, mi riferisco a due metodi e qui, ma sono interessato a metodi che possono essere utilizzati per confrontare la distribuzione di punteggi di ~ 1000 metodi di apprendimento (ad es. Da una ricerca in griglia) e infine fare una decisione finale su quale modello usare.AB


Penso che il termine compromesso di bias-varianza non si applichi qui, perché non si decompone un errore quadrato medio in bias e varianza e non si sta parlando della varianza di uno stimatore ma della varianza di un punteggio.
Lucas,

Grazie @Lucas. Sto cercando di stimare il punteggio dei miei classificatori e su dati invisibili . Per questo, ho pensato di poter prendere la media dei punteggi sui dati visti come miei stimatori (cioè ed per e ). La varianza di questi stimatori è diversa dalla varianza dei punteggi e ? ABE(PA)E(PB)ABPAPB
Amelio Vazquez-Reina,

2
@ user815423426 Penso che il confronto dipenda dalla funzione di perdita che hai. Diebold e Mariano (2002) hanno un bel documento che studia la tua domanda. Hanno proposto alcuni test statistici confrontando le prestazioni di "generalizzazione". Non so come impostare un collegamento nei commenti. L'articolo è: Diebold, Francis X. e Robert S. Mariano. "Confronto della precisione predittiva." Journal of Business & Economic Statistics 20.1 (2002): 134-144.
semibruin

Risposte:


2

Se ci fossero solo due metodi, A e B, calcolerei la probabilità che per una partizione di addestramento / test arbitraria che l'errore (secondo una metrica di prestazione adatta) per il modello A fosse inferiore all'errore per il modello B. Se questa probabilità erano maggiori di 0,5, avrei scelto il modello A e altrimenti il ​​modello B (vedi test di Mann-Whitney U?) Tuttavia, sospetto fortemente che finirà per scegliere il modello con la media inferiore a meno che le distribuzioni della statistica delle prestazioni non siano molto non -symmetric.

Per la ricerca della griglia, invece, la situazione è un po 'diversa in quanto non si stanno realmente confrontando metodi diversi, ma invece sintonizzando i parametri (iper) dello stesso modello per adattarsi a un campione finito di dati (in questo caso indirettamente tramite cross -Validazione). Ho scoperto che questo tipo di messa a punto può essere molto incline a un adattamento eccessivo, vedi il mio documento

Gavin C. Cawley, Nicola LC Talbot, "Sull'adattamento eccessivo nella selezione dei modelli e conseguente pregiudizio nella selezione delle prestazioni", Journal of Machine Learning Research, 11 (lug): 2079-2107, 2010. ( www )

Ho un articolo in revisione che mostra che probabilmente è meglio usare una griglia relativamente grossolana per le macchine del kernel (ad es. SVM) per evitare un eccesso di adattamento al criterio di selezione del modello. Un altro approccio (che non ho studiato, quindi avvertimento!) Sarebbe quello di scegliere il modello con l'errore più alto che non è statisticamente inferiore al miglior modello trovato nella ricerca della griglia (sebbene possa essere un approccio piuttosto pessimistico, specialmente per piccoli set di dati).

La vera soluzione, tuttavia, non è probabilmente quella di ottimizzare i parametri usando la ricerca della griglia, ma di fare una media dei valori dei parametri, sia in un approccio bayesiano, sia semplicemente come un metodo di ensemble. Se non ottimizzi, è più difficile adattarsi troppo!


Grazie Dikran. Quando dici "average over the parameter values"che penso di capire come farlo attraverso un metodo ensemble (es. Costruendo l'output dell'ensemble come media degli output del classificatore), ma non sono sicuro di come farlo con un approccio bayesiano quando si lavora con un modello discriminante. Comprendo la teoria di un approccio completamente bayesiano (cioè evitare le stime dei punti ed emarginare i parametri per costruire il posteriore finale), ma, supponendo che il mio precedente sui parametri sia uniforme, ciò non equivarrebbe a costruire l'insieme della media ?
Amelio Vazquez-Reina,

1
Nell'approccio bayesiano, i modelli sarebbero ponderati in base alla loro probabilità marginale (ad es. Prove bayesiane) e qualsiasi precedente collocato sugli iperparametri, quindi sarebbe un caso speciale di media su un insieme con un metodo particolare per ponderare i modelli.
Dikran Marsupial,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.