Che cos'è uno studio sull'ablazione? E c'è un modo sistematico per eseguirlo?

Che cos'è uno studio sull'ablazione? E c'è un modo sistematico per eseguirlo? Ad esempio, ho predittori in una regressione lineare che chiamerò come modello. $n$

Come eseguirò uno studio di ablazione a questo? Quali metriche dovrei usare?

Una fonte completa o un libro di testo sarebbe apprezzato.

regression machine-learning neural-networks

— CGO
fonte

Il termine "studio sull'ablazione" viene spesso utilizzato nel contesto delle reti neurali, in particolare di quelle relativamente complesse come le R-CNN. L'idea è di conoscere la rete rimuovendone parti e studiando le sue prestazioni. Nel contesto della regressione lineare che proponete, l'ablazione non ha davvero senso: si trasformerebbe in una sorta di procedura di selezione variabile graduale all'indietro.

— Robert Long,

Il significato originale di "Ablation" è la rimozione chirurgica del tessuto corporeo . Il termine "studio sull'ablazione" ha le sue radici nel campo della neuropsicologia sperimentale degli anni '60 e '70, dove parti del cervello degli animali furono rimosse per studiare l'effetto che ciò aveva sul loro comportamento.

Nel contesto dell'apprendimento automatico, e in particolare delle reti neurali profonde complesse, è stato adottato uno "studio sull'ablazione" per descrivere una procedura in cui vengono rimosse alcune parti della rete, al fine di comprendere meglio il comportamento della rete.

Il termine ha ricevuto attenzione da un tweet di Francois Chollet , autore principale del framework di apprendimento profondo di Keras, a giugno 2018:

Gli studi sull'ablazione sono cruciali per la ricerca di apprendimento profondo - non possono sottolinearlo abbastanza. Comprendere la causalità nel tuo sistema è il modo più semplice per generare conoscenze affidabili (l'obiettivo di qualsiasi ricerca). E l'ablazione è un modo molto semplice per esaminare la causalità.

Se si esegue una configurazione sperimentale di apprendimento approfondito complicata, è probabile che sia possibile rimuovere alcuni moduli (o sostituire alcune funzionalità addestrate con funzioni casuali) senza perdita di prestazioni. Sbarazzarsi del rumore nel processo di ricerca: fare studi di ablazione.

Non riesci a comprendere appieno il tuo sistema? Molte parti mobili? Vuoi assicurarti che il motivo per cui funziona sia realmente correlato alla tua ipotesi? Prova a rimuovere roba. Trascorri almeno il 10% circa del tempo di sperimentazione in uno sforzo sincero per confutare la tua tesi.

Ad esempio, Girshick e colleghi (2014) descrivono un sistema di rilevamento di oggetti che consiste di tre "moduli": il primo propone regioni di un'immagine all'interno delle quali cercare un oggetto usando l'algoritmo di ricerca selettiva ( Uijlings and colleghi 2012 ), che si inserisce in una grande rete neurale convoluzionale (con 5 livelli convoluzionali e 2 livelli completamente collegati) che esegue l'estrazione delle caratteristiche, che a sua volta si inserisce in una serie di macchine vettoriali di supporto per la classificazione. Per comprendere meglio il sistema, gli autori hanno eseguito uno studio di ablazione in cui sono state rimosse diverse parti del sistema - ad esempio la rimozione di uno o entrambi gli strati completamente collegati della CNN ha comportato una perdita di prestazioni sorprendentemente ridotta, che ha permesso agli autori di concludere

Gran parte del potere rappresentativo della CNN proviene dai suoi strati convoluzionali, piuttosto che dagli strati molto più densamente collegati.

Il PO chiede dettagli su / come / eseguire uno studio sull'ablazione e riferimenti completi. Non credo che ci sia una risposta "taglia unica" per questo. È probabile che le metriche differiscano, a seconda dell'applicazione e dei tipi di modello. Se restringiamo il problema semplicemente a una rete neurale profonda, allora è relativamente semplice vedere che possiamo rimuovere i livelli in modo di principio ed esplorare come questo cambia le prestazioni della rete. Oltre a ciò, in pratica, ogni situazione è diversa e nel mondo delle grandi e complesse applicazioni di machine learning, ciò significa che è probabilmente necessario un approccio unico per ogni situazione.

Nel contesto dell'esempio nel PO - regressione lineare - uno studio sull'ablazione non ha senso, perché tutto ciò che può essere "rimosso" da un modello di regressione lineare sono alcuni dei predittori. Fare questo in modo "di principio" è semplicemente una procedura di selezione graduale inversa, che è generalmente disapprovata - vedi qui , qui e qui per i dettagli. Una procedura di regolarizzazione come il Lazo è un'opzione molto migliore per la regressione lineare.

refs:

Girshick, R., Donahue, J., Darrell, T. e Malik, J., 2014. Gerarchie di funzionalità avanzate per il rilevamento accurato di oggetti e la segmentazione semantica. Negli atti della conferenza IEEE sulla visione artificiale e il riconoscimento di schemi (pagg. 580-587).

Uijlings, JR, Van De Sande, KE, Gevers, T. e Smeulders, AW, 2013. Ricerca selettiva per il riconoscimento di oggetti. Rivista internazionale di visione artificiale, 104 (2), pagg. 154-171.

— Robert Long
fonte

@cgo risponde alla tua domanda? Se è così, per favore, puoi contrassegnarlo come risposta accettata ...

— Robert Long,