Quali eventuali algoritmi di apprendimento automatico sono accettati come un buon compromesso tra spiegabilità e previsione?


9

Testi di machine learning che descrivono algoritmi come macchine per incrementare il gradiente o reti neurali spesso commentano che questi modelli sono bravi nella previsione, ma questo ha un prezzo di perdita di spiegabilità o interpretabilità. Al contrario, gli alberi delle singole decisioni e i modelli di regressione classica sono etichettati come validi nella spiegazione, ma offrono una precisione di previsione (relativamente) scarsa rispetto a modelli più sofisticati come foreste casuali o SVM. Esistono comunemente modelli di apprendimento automatico che rappresentano un buon compromesso tra i due? C'è qualche letteratura che elenca le caratteristiche degli algoritmi che consentono loro di essere spiegabili? (Questa domanda era stata precedentemente posta su validazione incrociata)

Risposte:


3

C'è qualche letteratura che elenca le caratteristiche degli algoritmi che consentono loro di essere spiegabili?

L'unica letteratura di cui sono a conoscenza è il recente articolo di Ribero, Singh e Guestrin. Definiscono innanzitutto la spiegabilità di una singola previsione:

"Spiegando una previsione", intendiamo presentare artefatti testuali o visivi che forniscono una comprensione qualitativa della relazione tra i componenti dell'istanza (ad esempio parole nel testo, patch in un'immagine) e la previsione del modello.

Gli autori elaborano ulteriormente cosa ciò significhi per esempi più concreti, e quindi usano questa nozione per definire la spiegabilità di un modello. Il loro obiettivo è provare e, per così dire, aggiungere la spiegabilità artificialmente a modelli altrimenti intransparenti, piuttosto che confrontare la spiegabilità dei metodi esistenti. Il documento può essere comunque utile, in quanto cerca di introdurre una terminologia più precisa attorno al concetto di "spiegabilità".

Esistono comunemente modelli di apprendimento automatico che rappresentano un buon compromesso tra i due?

Concordo con @Winter che la rete elastica per la regressione (non solo logistica) può essere vista come un esempio per un buon compromesso tra accuratezza della previsione e spiegabilità.

Per un diverso tipo di dominio dell'applicazione (serie temporali), un'altra classe di metodi fornisce anche un buon compromesso: la modellazione bayesiana delle serie temporali strutturali. Eredita la spiegabilità dalla classica modellazione strutturale delle serie storiche e una certa flessibilità dall'approccio bayesiano. Simile alla regressione logistica, la spiegabilità è aiutata dalle equazioni di regressione utilizzate per la modellazione. Vedi questo documento per una bella applicazione nel marketing e ulteriori riferimenti.

Relativamente al contesto bayesiano appena menzionato, potresti anche voler esaminare modelli grafici probabilistici. La loro spiegabilità non si basa sulle equazioni di regressione, ma sui modi grafici di modellizzazione; vedere "Modelli grafici probabilistici: principi e tecniche" di Koller e Friedman per una panoramica eccezionale.

Non sono sicuro se possiamo fare riferimento ai metodi bayesiani sopra come un "buon compromesso generalmente accettato". Potrebbero non essere sufficientemente noti per questo, soprattutto se confrontati con l'esempio della rete elastica.


Ora che ho avuto più possibilità di prendere in considerazione l'articolo collegato di Ribeiro et al., Vorrei dire che la Sezione 2 "Il caso di spiegazione" contiene qualcosa di utile definizione di "spiegabilità", e fa un un lavoro dignitoso nel delinearne l'importanza e, come tale, merita di essere ampiamente letto all'interno della comunità di Data Science.
Robert de Graaf,

Sebbene la premessa della mia domanda non sia stata accettata su CV, @SeanEaster mi ha aiutato con questo utile link: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article
Robert de Graaf

3

Esistono comunemente modelli di apprendimento automatico che rappresentano un buon compromesso tra i due?

Presumo che, essendo bravo nella previsione , intendi essere in grado di adattarsi alle non linearità presenti nei dati pur essendo abbastanza robusto per il sovradimensionamento. Il compromesso tra interpretabilità e capacità di prevedere tali non linearità dipende dai dati e dalla domanda posta. In realtà non esiste un pranzo libero nella scienza dei dati e nessun singolo algoritmo può essere considerato il migliore per qualsiasi set di dati (e lo stesso vale per l'interpretazione).

La regola generale dovrebbe essere che più algoritmi conosci, meglio è per te in quanto puoi adottare più facilmente le tue esigenze specifiche.

Se dovessi scegliere la mia attività preferita per la classificazione che utilizzo spesso in ambiente aziendale, sceglierei la rete elastica per la regressione logistica . Nonostante le forti assunzioni sul processo che genera i dati, può essere facilmente adottato dai dati grazie al termine di regolarizzazione che ne mantiene l'interpretazione dalla regressione logistica di base.

C'è qualche letteratura che elenca le caratteristiche degli algoritmi che consentono loro di essere spiegabili?

Ti suggerirei di scegliere un libro ben scritto che descriva gli algoritmi di machine learning comunemente usati e i loro pro e contro in diversi scenari. Un esempio di questo libro può essere The Elements of Statistical Learning di T. Hastie, R. Tibshirani e J. Friedman


3
TBH è stata la mia frustrazione per quel testo esatto che usa la parola "interpretabile" molte volte in relazione a diversi modelli, e in una fase dice "... l'applicazione di data mining richiede modelli interpretabili. Non è sufficiente produrre semplicemente previsioni (sezione 10.7), senza che io sia in grado di trovare materiale su come identificare un modello interpretabile, il che ha portato alla domanda. Anche se ero e detesto sembrare critico nei confronti di un testo così apprezzato. Allo stesso modo, l'articolo di TIbshirani che introduce gli elenchi LASSO "interpretabile" come una delle sue virtù senza dire che cosa sia "interpretabile".
Robert de Graaf,

1

Forse vedi la mia risposta sull'irragionevole efficacia degli ensemble e sui compromessi sulla spiegazione contro la previsione. La lunghezza minima del messaggio (MML, Wallace 2005) fornisce una definizione formale di spiegazione in termini di compressione dei dati e motiva l'aspettativa che le spiegazioni generalmente si adattano senza adattamento eccessivo e che buone spiegazioni generino previsioni valide e generalizzabili. Ma tocca anche la teoria formale del perché gli ensemble prevederanno meglio - un risultato che risale al (Solomonoff 1964) sulla predizione ottimale e intrinseco agli approcci completamente bayesiani: integrarsi sulla distribuzione posteriore, non solo scegliere la media, la mediana, o modalità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.