Il mio modello è valido, basato sul valore della metrica diagnostica ( / AUC / accuratezza / RMSE ecc.)?


12

Ho adattato il mio modello e sto cercando di capire se va bene. Ho calcolato le metriche consigliate per valutarle ( / AUC / accuratezza / errore di previsione / ecc.) Ma non so come interpretarle. In breve, come faccio a sapere se il mio modello è buono in base alla metrica? È sufficiente un di 0,6 (ad esempio) per consentirmi di trarre conclusioni o basare decisioni scientifiche / commerciali?R2R2


Questa domanda è intenzionalmente ampia, per coprire un'ampia varietà di situazioni che i membri incontrano frequentemente; tali domande potrebbero essere chiuse come duplicati di questo. Le modifiche per ampliare l'ambito oltre le metriche menzionate qui sono benvenute, così come le risposte aggiuntive, in particolare quelle che offrono approfondimenti su altre classi di metriche.


1
Correlati: Come sapere che il tuo problema di apprendimento automatico è senza speranza? Come in "Ho , significa che non posso migliorarlo ulteriormente?" R2=0.6
Stephan Kolassa,

2
Linea di base per o qualsiasi altra metrica utilizzata? Andare da a può essere un incredibile salto di prestazioni in alcune applicazioni. Questo è esattamente come funzionano tutte le pubblicazioni ragionevoli. Abbiamo un modello proposto, abbiamo una serie di metriche ben accettate, conosciamo lo "stato dell'arte" e confrontiamo le prestazioni. Ed è così che sappiamo se il nostro modello è buono . R2R2=0.03R2=0.05
usεr11852,

Risposte:


18

Questa risposta si concentrerà principalmente su , ma la maggior parte di questa logica si estende ad altre metriche come AUC e così via.R2

A questa domanda non è quasi certamente possibile rispondere bene ai lettori di CrossValidated. Non esiste un modo privo di contesto per decidere se le metriche del modello come sono valide o menoR2 . All'estremo, di solito è possibile ottenere un consenso da un'ampia varietà di esperti: un di quasi 1 indica generalmente un buon modello, e vicino a 0 indica un terribile. Nel mezzo si trova un intervallo in cui le valutazioni sono intrinsecamente soggettive. In questo intervallo, ci vuole molto più della semplice competenza statistica per rispondere se la metrica del modello è valida. Ci vuole ulteriore competenza nella tua zona, che probabilmente i lettori di CrossValidated non hanno.R2

Perchè è questo? Permettetemi di illustrare con un esempio della mia esperienza (dettagli minori modificati).

Facevo esperimenti di laboratorio di microbiologia. Installerei boccette di cellule a diversi livelli di concentrazione di nutrienti e misurerei la crescita della densità cellulare (cioè la pendenza della densità cellulare rispetto al tempo, sebbene questo dettaglio non sia importante). Quando ho quindi modellato questa relazione crescita / nutrienti, era comune raggiungere valori > 0,90.R2

Ora sono uno scienziato ambientale. Lavoro con set di dati contenenti misure dalla natura. Se provo ad adattare esattamente lo stesso modello descritto sopra a questi set di dati 'field', sarei sorpreso se io fosse alto come 0,4.R2

Questi due casi riguardano esattamente gli stessi parametri, con metodi di misurazione molto simili, modelli scritti e montati utilizzando le stesse procedure - e persino la stessa persona che esegue il montaggio! Ma in un caso, un di 0,7 sarebbe preoccupantemente basso, e nell'altro sarebbe sospettosamente alto.R2

Inoltre, prenderemo alcune misurazioni chimiche insieme alle misurazioni biologiche. I modelli per le curve standard di chimica avrebbero intorno a 0,99 e un valore di 0,90 sarebbe preoccupantemente basso .R2


Cosa porta a queste grandi differenze nelle aspettative? Contesto. Quel termine vago copre una vasta area, quindi lasciami provare a separarlo in alcuni fattori più specifici (questo è probabilmente incompleto):

1. Qual è il payoff / conseguenza / applicazione?

Qui è dove la natura del tuo campo è probabilmente la più importante. Per quanto prezioso sia il mio lavoro, aumentare il mio modello s di 0,1 o 0,2 non rivoluzionerà il mondo. Ma ci sono applicazioni in cui quell'entità del cambiamento sarebbe un grosso problema! Un miglioramento molto minore di un modello di previsione delle scorte potrebbe significare decine di milioni di dollari per l'impresa che lo sviluppa.R2

Questo è ancora più facile da illustrare per i classificatori, quindi cambierò la mia discussione sulle metriche da all'accuratezza per il seguente esempio (ignorando la debolezza della metrica di accuratezza per il momento). Considera lo strano e redditizio mondo del sesso sessuale con pollo . Dopo anni di allenamento, un essere umano può rapidamente dire la differenza tra un pulcino maschio e femmina quando ha solo 1 giorno di età. I maschi e le femmine vengono nutriti in modo diverso per ottimizzare la produzione di carne e uova, quindi un'elevata precisione consente di risparmiare enormi quantità di investimenti allocati male in miliardiR2di uccelli. Fino a qualche decennio fa, la precisione di circa l'85% era considerata elevata negli Stati Uniti. Oggi, il valore di raggiungere la massima precisione, di circa il 99%? Uno stipendio che a quanto pare può variare da 60.000 a forse 180.000 dollari all'anno (basato su alcuni googling rapidi). Poiché gli esseri umani sono ancora limitati nella velocità con cui lavorano, gli algoritmi di apprendimento automatico che possono raggiungere un'accuratezza simile ma che consentono di eseguire l'ordinamento più velocemente potrebbero valere milioni.

(Spero che ti sia piaciuto l'esempio: l'alternativa era deprimente sull'identificazione algoritmica molto discutibile dei terroristi).

2. Quanto è forte l'influenza di fattori non modellati nel tuo sistema?

In molti esperimenti, hai il lusso di isolare il sistema da tutti gli altri fattori che possono influenzarlo (questo è in parte l'obiettivo della sperimentazione, dopo tutto). La natura è più disordinata. Per continuare con il precedente esempio di microbiologia: le cellule crescono quando sono disponibili sostanze nutritive ma anche altre cose le influenzano: quanto fa caldo, quanti predatori ci sono per mangiarle, se ci sono tossine nell'acqua. Tutti quei covary con nutrienti e tra loro in modi complessi. Ognuno di questi altri fattori determina una variazione dei dati che non viene acquisita dal modello. I nutrienti possono non essere importanti nel determinare la variazione rispetto agli altri fattori, e quindi se escludo tali altri fattori, il mio modello dei miei dati di campo avrà necessariamente un inferiore .R2

3. Quanto sono precise e accurate le tue misurazioni?

Misurare la concentrazione di cellule e sostanze chimiche può essere estremamente preciso e accurato. Misurare (ad esempio) lo stato emotivo di una comunità basata su trend hashtag di Twitter sarà probabilmente ... meno. Se non puoi essere preciso nelle tue misurazioni, è improbabile che il tuo modello possa mai raggiungere un alto . Quanto sono precise le misure nel tuo campo? Probabilmente non lo sappiamo.R2

4. Modello complessità e generalizzabilità

Se aggiungi più fattori al tuo modello, anche quelli casuali, aumenterai in media il modello ( corretto risolve parzialmente questo problema). Questo è troppo adatto . Un modello di overfit non si generalizzerà bene con i nuovi dati, ovvero avrà un errore di previsione più elevato del previsto in base all'adattamento al set di dati (training) originale. Questo perché ha adattato il rumore nel set di dati originale. Questo è in parte il motivo per cui i modelli sono penalizzati per la complessità nelle procedure di selezione dei modelli o sottoposti a regolarizzazione.R2R2

Se l'eccessivo adattamento viene ignorato o non viene prevenuto con successo, l' stimato sarà distorto verso l'alto, cioè più in alto di quanto dovrebbe essere. In altre parole, il valore di può darti un'impressione fuorviante delle prestazioni del tuo modello se è troppo adatto.R2R2

IMO, il sovradimensionamento è sorprendentemente comune in molti campi. Il modo migliore per evitarlo è un argomento complesso e, se ti interessa , ti consiglio di leggere le procedure di regolarizzazione e la selezione del modello su questo sito.

5. Intervallo di dati ed estrapolazione

Il tuo set di dati si estende su una parte sostanziale dell'intervallo di valori X a cui sei interessato? L'aggiunta di nuovi punti dati al di fuori dell'intervallo di dati esistente può avere un grande effetto sulla stima di , poiché si tratta di una metrica basata sulla varianza in X e Y.R2

A parte questo, se si adatta un modello a un set di dati e si deve prevedere un valore al di fuori dell'intervallo X di tale set di dati (ovvero estrapolazione ), è possibile che le prestazioni siano inferiori alle aspettative. Questo perché la relazione che hai stimato potrebbe cambiare al di fuori dell'intervallo di dati che hai inserito. Nella figura seguente, se hai preso le misure solo nell'intervallo indicato dalla casella verde, potresti immaginare che una linea retta (in rosso) descriva bene i dati. Ma se si tentasse di prevedere un valore al di fuori di tale intervallo con quella linea rossa, si sarebbe del tutto errati.

inserisci qui la descrizione dell'immagine

[La figura è una versione modificata di questa , trovata tramite una rapida ricerca su Google per "curva Monod".]

6. Le metriche ti danno solo un pezzo dell'immagine

Questa non è in realtà una critica delle metriche: sono dei riassunti , il che significa che gettano via informazioni anche dal design. Ma significa che ogni singola metrica lascia fuori informazioni che possono essere cruciali per la sua interpretazione. Una buona analisi prende in considerazione più di una singola metrica.


Suggerimenti, correzioni e altri feedback sono benvenuti. E anche altre risposte, ovviamente.


3
R2R2

@Lewian Grazie per il feedback. Pensavo di averlo coperto ai punti 2 e 3, ma vedo che può essere migliorato. Penserò a come rendere più chiaro questo punto.
mkt - Ripristina Monica il

1
Sì, ho pensato se questo è già coperto. La cosa con 2 e 3 è che forniscono motivi specifici per cui ciò potrebbe accadere, tuttavia si tratta di un problema generale.
Lewian,

@Lewian Concordato, ci penserò su.
mkt - Ripristina Monica il

2

Questo problema si presenta nel mio campo dell'idrologia quando si valuta in che misura i modelli prevedono il flusso di flusso dai dati sulle precipitazioni e sul clima. Alcuni ricercatori ( Chiew e McMahon, 1993 ) hanno esaminato 93 idrologi (63 hanno risposto) per scoprire quali grafici diagnostici e bontà delle statistiche di adattamento hanno usato, quali erano i più importanti e come sono stati usati per classificare la qualità di un adattamento di modello . I risultati sono ora datati ma l'approccio potrebbe essere ancora interessante. Hanno presentato i risultati di adattamenti modello di varie qualità e hanno chiesto agli idrologi di classificarli in 4 categorie (1) risultato perfettamente accettabile; (2) accettabile ma usare con prenotazione; (3) inaccettabile, utilizzare solo se non vi sono altre alternative; e (4) non usare mai in nessuna condizione.

I grafici diagnostici più importanti erano i grafici di serie e i grafici a dispersione di flussi simulati e registrati dai dati utilizzati per la calibrazione. Il coefficiente di efficienza del modello R-quadrato e di Nash-Sutcliffe (E) era la bontà preferita delle statistiche di adattamento. Ad esempio, i risultati sono stati considerati accettabili se E => 0,8

Ci sono altri esempi in letteratura. Nel valutare un modello di ecosistema nel Mare del Nord, è stata utilizzata la seguente categorizzazione E> 0,65 eccellente, 0,5-0,65 molto buono, 0,2-0,5 come buono e <0,2 come scarso ( Allen et al., 2007 ).

Moriasi et al., (2015) fornisce tabelle di valori accettabili per le metriche per vari tipi di modelli.

Ho riassunto queste informazioni e riferimenti in un post sul blog .

Allen, J., P. Somerfield e F. Gilbert (2007), Quantificazione dell'incertezza nei modelli idrodinamici-ecosistemi accoppiati ad alta risoluzione, J. Mar. Syst., 64 (1–4), 3–14, doi: 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. e Daggupati, P. (2015) Modelli idrologici e di qualità dell'acqua: misure delle prestazioni e criteri di valutazione Transazioni dell'ASABE (American Society of Agricultural and Biological Engineers) 58 (6): 1763-1785


0

Solo per aggiungere alle grandi risposte sopra - nella mia esperienza, le metriche di valutazione e gli strumenti diagnostici sono buoni e onesti come la persona che li utilizza. Cioè, se capisci la matematica dietro di loro, allora puoi probabilmente aumentarli artificialmente per far apparire meglio il tuo modello senza aumentarne l'utilità effettiva.

R2=0.03R2=0.05

Terrò breve questa risposta poiché quanto sopra fa un ottimo lavoro fornendo spiegazioni / riferimenti. Volevo solo aggiungere qualche prospettiva alla sezione su 6. Le metriche ti danno solo un pezzo dell'immagine con la risposta di mkt.

Spero che questo ti aiuti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.