Se voglio un modello interpretabile, ci sono metodi diversi dalla regressione lineare?


18

Ho incontrato alcuni statistici che non usano mai modelli diversi dalla regressione lineare per la previsione perché ritengono che "modelli ML" come la foresta casuale o il potenziamento del gradiente siano difficili da spiegare o "non interpretabili".

In una regressione lineare, dato che l'insieme di ipotesi è verificato (normalità degli errori, omoschedasticità, nessuna multi-collinearità), i test t forniscono un modo per testare il significato delle variabili, test che a mia conoscenza non sono disponibili nella foreste casuali o modelli di aumento gradiente.

Pertanto, la mia domanda è se voglio modellare una variabile dipendente con un insieme di variabili indipendenti, per motivi di interpretabilità dovrei sempre usare la regressione lineare?


6
Dipende da ciò che consideri ancora lineare. I modelli lineari generalizzati e i modelli additivi generalizzati funzionano ancora sulla base di una componente lineare stimata, ma possono modellare un'ampia varietà di relazioni.
Frans Rodenburg,

2
Dipende anche da cosa intendi per interpretabile. Sono stati proposti vari modi di "scrutare nella scatola nera" per i modelli di apprendimento automatico, ma possono essere o meno appropriati per i tuoi obiettivi.
user20160,

5
Non vedo bene cosa abbiano a che fare le statistiche inferenziali e i test t con l'interpretazione, che l'IMO riguarda principalmente le stime dei coefficienti.
S. Kolassa - Ripristina Monica il

3
@StephanKolassa "Interretability" può anche riguardare il modulo di funzione . Ad esempio, le stime dei coefficienti prodotte dall'adattamento della curva polinomiale frazionaria algoritmica nei modelli di regressione (siano essi regressione lineare, GLM o qualcos'altro), pur ottenendo un buon adattamento , sono quasi certamente anti-intuitive: puoi richiamare alla mente la gamma di forme prodotte per modelli in forma e quindi interpretare la relazione tra e implicita nelle stime dei coefficienti? yio=β0+β1Xio-3/5+β2Xio1/3+β3Xio3+εioyX
Alexis,

2
@UserX Quello che descrivi è ancora una regressione lineare (cioè è lineare nei parametri). Contrasto con : il primo è un modello di regressione lineare, mentre il secondo non può essere stimato usando la regressione lineare. yio=β0+β1Xio+β2Xio2+εioyio=β0+β1Xio+Xioβ2+εio
Alexis,

Risposte:


29

È difficile per me credere che tu abbia sentito la gente dire questo, perché sarebbe una cosa stupida da dire. È come dire che usi solo il martello (inclusi i fori e per cambiare le lampadine), perché è semplice da usare e dà risultati prevedibili.

In secondo luogo, la regressione lineare non è sempre "interpretabile". Se si dispone di un modello di regressione lineare con molti termini polinomiali o solo molte funzioni, sarebbe difficile da interpretare. Ad esempio, supponiamo che tu abbia usato i valori grezzi di ciascuno dei 784 pixel di MNIST † come caratteristiche. Sapendo che il pixel 237 ha un peso pari a -2311.67 ti dirà qualcosa sul modello? Per i dati delle immagini, guardare le mappe di attivazione della rete neurale convoluzionale sarebbe molto più facile da capire.

Infine, ci sono modelli ugualmente interpretabili, ad esempio regressione logistica, alberi decisionali, ingenuo algoritmo di Bayes e molti altri.

† - Come notato da @Ingolifs nel commento, e come discusso in questo thread , MNIST potrebbe non essere il miglior esempio, poiché si tratta di un set di dati molto semplice. Per la maggior parte dei set di dati realistici delle immagini, la regressione logistica non funzionerebbe e guardare i pesi non darebbe risposte chiare. Tuttavia, se si guardano più da vicino i pesi nel thread collegato, anche la loro interpretazione non è semplice, ad esempio i pesi per la previsione di "5" o "9" non mostrano alcun modello evidente (vedere l'immagine sotto, copiata dall'altro thread ).


2
Questa risposta, a mio avviso, fa un buon lavoro mostrando come si possa spiegare chiaramente la regressione logistica su MNIST.
Ingolifs,

1
@Ingolifs sono d'accordo, ma questa è una mappa di attivazione, potresti fare lo stesso per la rete neurale.
Tim

Indipendentemente da come si chiama, fornisce una chiara spiegazione di ciò che la regressione logistica sta usando per prendere le sue decisioni in un modo che non si ottiene realmente per le mappe di attivazione delle reti neurali.
Ingolifs,

1
@Ingolifs MNIST non è forse il miglior esempio perché è molto semplice, ma il punto è che useresti lo stesso metodo per la rete neurale.
Tim


7

Vorrei rispondere alle risposte di Tim e mkt: i modelli ML non sono necessariamente interpretabili. Ti indirizzerei alle descrizioni descrittive mAchine Learning EXplanations, pacchetto DALEX R, che è dedicato a rendere interpretabili i modelli ML.


1
il pacchetto DALEX è davvero molto interessante, sai se esiste qualcosa di simile per Python?
Victor,

@Victor Non conosco una versione Python di DALEX, ma potresti provare a chiamare R da Python usando rpy2.readthedocs.io/en/version_2.8.x/introduction.html per esempio.
babelproofreader,

6

No, è inutilmente restrittivo. Esiste una vasta gamma di modelli interpretabili inclusi non solo (come dice Frans Rodenburg) modelli lineari, modelli lineari generalizzati e modelli additivi generalizzati, ma anche metodi di apprendimento automatico utilizzati per la regressione. Includo foreste casuali, macchine a gradiente potenziato, reti neurali e altro. Solo perché non si ottengono coefficienti dai modelli di apprendimento automatico simili a quelli delle regressioni lineari non significa che il loro funzionamento non possa essere compreso. Ci vuole solo un po 'più di lavoro.

Per capire perché, consiglierei di leggere questa domanda: Ottenere conoscenza da una foresta casuale . Ciò che mostra è il modo in cui puoi avvicinarti per rendere interpretabile quasi ogni modello di apprendimento automatico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.