La selezione delle variabili per la modellazione predittiva è davvero necessaria nel 2016?

68

Questa domanda è stata posta sul CV alcuni anni fa, sembra ripubblicare alla luce di 1) ordine di grandezza migliore tecnologia informatica (ad es. Calcolo parallelo, HPC ecc.) E 2) tecniche più recenti, ad es. [3].

Innanzitutto, un po 'di contesto. Supponiamo che l'obiettivo non sia il test delle ipotesi, non la stima degli effetti, ma la previsione su un set di test non visto. Quindi, nessun peso è dato ad alcun beneficio interpretabile. In secondo luogo, supponiamo che non si possa escludere la rilevanza di alcun predittore sulla considerazione dell'argomento, ad es. sembrano tutti plausibili individualmente o in combinazione con altri predittori. Terzo, ti trovi di fronte a (centinaia di) milioni di predittori. In quarto luogo, supponiamo che tu abbia accesso ad AWS con un budget illimitato, quindi la potenza di elaborazione non è un vincolo.

I soliti motivi per la selezione delle variabili sono 1) efficienza; più veloce per adattarsi a un modello più piccolo ed economico per raccogliere meno predittori, 2) interpretazione; conoscere le variabili "importanti" fornisce informazioni sul processo sottostante [1].

È ormai ampiamente noto che molti metodi di selezione delle variabili sono inefficaci e spesso completamente pericolosi (ad es. Regressione graduale in avanti) [2].

In secondo luogo, se il modello selezionato è valido, non è necessario ridurre l'elenco dei predittori. Il modello dovrebbe farlo per te. Un buon esempio è il lazo, che assegna un coefficiente zero a tutte le variabili irrilevanti.

Sono consapevole che alcune persone sostengono l'uso di un modello "elefante", cioè. getta tutti i possibili predittori in forma e corri con esso [2].

C'è qualche motivo fondamentale per fare una selezione variabile se l'obiettivo è la precisione predittiva?

[1] Reunanen, J. (2003). Overfitting nel fare confronti tra metodi di selezione variabili. The Journal of Machine Learning Research, 3, 1371-1382.

[2] Harrell, F. (2015). Strategie di modellazione della regressione: con applicazioni a modelli lineari, regressione logistica e ordinale e analisi di sopravvivenza. Springer.

[3] Taylor, J. e Tibshirani, RJ (2015). Apprendimento statistico e inferenza selettiva. Atti della National Academy of Sciences, 112 (25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R. e Ungar, L. (2005, agosto). Selezione della funzione di streaming tramite alfa-investimento. In Atti dell'undicesima conferenza internazionale ACM SIGKDD sulla scoperta della conoscenza nel data mining (pagg. 384-393). ACM.

— horaceT
fonte

6

Bella prima domanda: potrebbe eventualmente essere chiusa come duplicata, ma apprezzo che tu abbia speso sforzi per definire ciò che ritieni lo distingua. Suggerirei di modificare il titolo, quindi è più chiaro che il tuo focus è solo sulla previsione.

— Silverfish,

5

Se questa domanda è già stata posta ma ritieni importante ripubblicarla dopo un po 'di tempo, forse potresti fornire un link alla domanda precedente? Potrebbe essere interessante poter confrontare le risposte precedenti.

— Tim

1

@ qbert65536 Una vista è che non lo fai. La selezione delle funzionalità è intrinsecamente inaffidabile.

— horaceT,

8

Anche i metodi che selezionano automaticamente un sottoinsieme sparso di funzioni (ad es. Modelli penalizzati l1) stanno eseguendo la selezione delle caratteristiche. Quindi la domanda critica non è "la selezione delle caratteristiche è buona / cattiva", ma "quali sono le proprietà che distinguono i metodi di selezione delle buone funzioni da quelli cattivi?". Essere eseguiti congiuntamente alla stima dei parametri (come nel lazo) è una proprietà, e potremmo chiederci se ciò conta (insieme a molte altre proprietà).

— user20160

2

@ToussaintLouverture Da quando ho pubblicato questa domanda un anno fa, ho ripensato (e terzo). Ora credo che la domanda appropriata sia: quanto sia importante orientare gli sforzi verso la selezione variabile, piuttosto che selezionare un modello per scegliere un modello più capace che generalizzi da tutte le caratteristiche di un esperimento.

— OrazioT

37

Da anni si vocifera che Google utilizzi tutte le funzionalità disponibili per costruire i suoi algoritmi predittivi. Ad oggi, tuttavia, non sono emersi disclaimer, spiegazioni o white paper che chiariscono e / o contestano questa voce. Nemmeno i loro brevetti pubblicati aiutano nella comprensione. Di conseguenza, nessuno esterno a Google sa cosa sta facendo, per quanto ne so.

/ * Aggiornamento a settembre 2019, un evangelista di Google Tensorflow è stato registrato in una presentazione affermando che gli ingegneri di Google valutano regolarmente oltre 5 miliardi di parametri per l'attuale versione di PageRank . * /

Come osserva il PO, uno dei maggiori problemi nella modellazione predittiva è la conflazione tra test di ipotesi classici e attenta specifica del modello rispetto al puro data mining. La formazione classica può diventare piuttosto dogmatica sulla necessità di "rigore" nella progettazione e nello sviluppo di modelli. Il fatto è che di fronte a un numero enorme di predittori candidati e molteplici possibili obiettivi o variabili dipendenti, il quadro classico non funziona, contiene né fornisce indicazioni utili. Numerosi articoli recenti delineano questo dilemma da Chattopadhyay e dal brillante documento di Lipson Data Smashing: Uncovering in agguato nell'ordine dei dati http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Il principale collo di bottiglia è che la maggior parte degli algoritmi di confronto dei dati oggi si affida a un esperto umano per specificare quali "caratteristiche" dei dati sono rilevanti per il confronto. Qui, proponiamo un nuovo principio per stimare la somiglianza tra le fonti di flussi di dati arbitrari, non usando né la conoscenza del dominio né l'apprendimento.

All'articolo dello scorso anno sull'AER sui problemi di politica previsionale di Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 che rende il caso del data mining e della previsione come strumenti utili nella definizione delle politiche economiche, citando casi in cui "l'inferenza causale non è centrale, o addirittura necessaria. "

Il fatto è che la domanda più grande, $ 64.000, è l'ampio spostamento nel pensiero e le sfide al classico quadro di verifica delle ipotesi implicito, ad esempio, in questo simposio di Edge.org sul pensiero scientifico "obsoleto" https://www.edge.org/ risposte / che-idea-scientifica-è-pronta-per- andare in pensione così come questo recente articolo di Eric Beinhocker sulla "nuova economia" che presenta alcune proposte radicali per l'integrazione di discipline molto diverse come l'economia comportamentale, la teoria della complessità, il modello predittivo teoria dello sviluppo, delle reti e del portafoglio come piattaforma per l'implementazione e l'adozione delle politiche https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Inutile dire che questi problemi vanno ben oltre le semplici preoccupazioni economiche e suggeriscono che stiamo subendo un cambiamento fondamentale nei paradigmi scientifici. Le opinioni mutevoli sono fondamentali quanto le distinzioni tra riduzionista, il rasoio di Occam come la costruzione di modelli e il principio espansivo di pienezza di Epicuro o molteplici spiegazioni che sostengono approssimativamente che se diversi risultati spiegano qualcosa, conservali tutti ... https: // en. wikipedia.org/wiki/Principle_of_plenitude

Naturalmente, ragazzi come Beinhocker sono totalmente liberi da problemi pratici, nelle trincee riguardanti le soluzioni applicate e statistiche a questo paradigma in evoluzione. Scritto con domande grintose sulla selezione di variabili di dimensione ultra-alta, l'OP è relativamente aspecifico per quanto riguarda gli approcci praticabili alla costruzione di modelli che potrebbero sfruttare, ad esempio, Lasso, LAR, algoritmi graduali o "modelli di elefanti" che utilizzano tutte le informazioni disponibili. La realtà è che, anche con AWS o un supercomputer, non è possibile utilizzare tutte le informazioni disponibili contemporaneamente: semplicemente non c'è abbastanza RAM per caricarle tutte. Cosa significa? Sono state proposte soluzioni alternative, ad esempio, la scoperta di NSF in set di dati complessi o voluminosi: temi statistici comuni"dividere e conquistare" algoritmi per il data mining di massa, ad esempio, il documento di Wang, et al, A Survey of Statistical Methods and Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf e Leskovec, et al's book Mining of Massive Dataset http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

Ora ci sono letteralmente centinaia, se non migliaia di articoli che trattano vari aspetti di queste sfide, tutti proponendo motori analitici molto diversi come il loro nucleo rispetto agli algoritmi di "divisione e conquista"; modelli "senza apprendimento" senza supervisione; teoria della matrice casuale applicata alla costruzione massiccia della covarianza; Modelli tensoriali bayesiani a regressione logistica classica, supervisionata e altro. Quindici anni fa circa, il dibattito si concentrava in gran parte sulle questioni relative ai meriti relativi delle soluzioni gerarchiche bayesiane rispetto ai modelli di miscele finite frequentiste. In un documento che affronta questi problemi, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfè giunto alla conclusione che i diversi approcci teorici, in pratica, hanno prodotto risultati in gran parte equivalenti, ad eccezione dei problemi che coinvolgono dati sparsi e / o ad alta dimensione in cui i modelli HB avevano il vantaggio. Oggi, con l'avvento delle soluzioni alternative di D&C, vengono eliminati tutti i modelli di arbitraggio HB che storicamente potrebbero essere stati apprezzati.

La logica di base di queste soluzioni alternative di D&C sono, in linea di massima, estensioni della famosa tecnica forestale casuale di Breiman che si basava sul ricampionamento bootstrap di osservazioni e caratteristiche. Breiman ha fatto il suo lavoro alla fine degli anni '90 su una singola CPU, quando dati enormi hanno significato poche decine di concerti e un paio di migliaia di funzionalità. Sulle attuali piattaforme multi-core massicciamente parallele, è possibile eseguire algoritmi che analizzano terabyte di dati contenenti decine di milioni di funzionalità costruendo milioni di mini-modelli "RF" in poche ore.

Ci sono molte domande importanti che emergono da tutto ciò. Uno ha a che fare con una preoccupazione per una perdita di precisione dovuta alla natura approssimativa di queste soluzioni alternative. Questo problema è stato affrontato da Chen e Xie nel loro documento, Un approccio diviso e conquistato per l'analisi di dati straordinariamente grandi http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf dove concludono che le approssimazioni sono indistinguibilmente diverse dai modelli di "informazione completa".

Una seconda preoccupazione che, per quanto a mia conoscenza non è stata adeguatamente affrontata dalla letteratura, ha a che fare con ciò che viene fatto con i risultati (cioè i "parametri") da potenzialmente milioni di mini-modelli predittivi una volta che le soluzioni alternative sono stati raggruppati e riassunti. In altre parole, come si fa a eseguire qualcosa di semplice come "segnare" nuovi dati con questi risultati? I coefficienti del mini-modello devono essere salvati e memorizzati o si esegue semplicemente nuovamente l'algoritmo d & c su nuovi dati?

Nel suo libro, Numbers Rule Your World , Kaiser Fung descrive il dilemma affrontato da Netflix quando presentato con un ensemble di soli 104 modelli consegnati dai vincitori della competizione. I vincitori avevano, in effetti, ridotto al minimo l'MSE rispetto a tutti gli altri concorrenti, ma ciò si è tradotto in un miglioramento di pochi decimali nella precisione della scala di valutazione di tipo Likert a 5 punti utilizzata dal loro sistema di raccomandazione del film. Inoltre, la manutenzione IT richiesta per questo insieme di modelli costa molto di più di qualsiasi altro risparmio visto dal "miglioramento" dell'accuratezza del modello.

Quindi c'è tutta la questione se "l'ottimizzazione" è persino possibile con informazioni di questa portata. Ad esempio, Emmanuel Derman, fisico e ingegnere finanziario, nel suo libro My Life as a Quant suggerisce che l'ottimizzazione è un mito insostenibile, almeno nell'ingegneria finanziaria.

Infine, devono ancora essere affrontate importanti questioni relative all'importanza delle caratteristiche relative con un numero enorme di funzioni.

Non ci sono risposte facili alle domande sulla necessità di una selezione variabile e le nuove sfide aperte dalle attuali soluzioni alternative epicuree rimangono da risolvere. La linea di fondo è che ora siamo tutti data scientist.

**** EDIT *** Riferimenti

Chattopadhyay I, Lipson H. 2014 Smashing dei dati: scoprire l'ordine in agguato nei dati. JR Soc. Interfaccia 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan e Ziad Obermeyer. 2015. "Problemi di politica di previsione". American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, domanda annuale 2014: QUALE IDEA SCIENTIFICA È PRONTA PER IL RITIRAMENTO? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, In che modo i profondi cambiamenti nell'economia rendono irrilevanti i dibattiti tra sinistra e destra, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Principio epicuro di spiegazioni multiple: mantenere tutti i modelli. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Discovery in set di dati complessi o di grandi dimensioni: temi statistici comuni, un workshop finanziato dalla National Science Foundation, 16-17 ottobre 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Metodi statistici e informatica per i big data, documento di lavoro di Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu e Jun Yan, 29 ottobre 2015 http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Dataset, Cambridge University Press; 2 edizione (29 dicembre 2014) ISBN: 978-1107077232
Matrici di covarianza di grandi campioni e analisi di dati ad alta dimensione (serie di Cambridge in matematica statistica e probabilistica), di Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edizione (30 marzo 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE e IMRAN S. CURRIM, un confronto empirico di modelli Logit Choice con discrete contro continue rappresentazioni dell'eterogeneità, Journal of Marketing Research, 479 Vol. XXXIX (novembre 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Un approccio diviso e conquistato per l'analisi di dati straordinariamente grandi, Xueying Chen e Minge Xie, Rapporto tecnico DIMACS 2012-01, gennaio 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, i numeri governano il tuo mondo: l'influenza nascosta delle probabilità e delle statistiche su tutto ciò che fai, McGraw-Hill Education; 1 edizione (15 febbraio 2010) ISBN: 978-0071626538
Emmanuel Derman, My Life as a Quant: Reflections on Physics and Finance, Wiley; 1 edizione (11 gennaio 2016) ISBN: 978-0470192733

* Aggiornamento a novembre 2017 *

Il libro di Nathan Kutz del 2013, Modellazione basata sui dati e calcolo scientifico: metodi per sistemi complessi e big data è un'escursione matematica e incentrata sulla PDE nella selezione delle variabili, nonché metodi e strumenti di riduzione delle dimensioni. Un'eccellente introduzione di 1 ora al suo pensiero può essere trovata in questo video di Youtube del giugno 2017 Data Driven Discovery di sistemi dinamici e PDE . In esso, fa riferimento agli ultimi sviluppi in questo campo. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop

— Mike Hunter
fonte

1

Alla Machine Learning Summer School una coppia di anni fa, un collega di Google ha tenuto un discorso (dimenticato il nome). Ha menzionato un paio di modelli (classificazione binaria) in produzione che coinvolgono qualcosa come ~ 200 milioni di funzionalità addestrate in batch su ~ 30 Tb di set di dati; la maggior parte di essi sono probabilmente funzioni binarie. Non ricordo che abbia mai menzionato la selezione delle variabili.

— horaceT

1

Grandi commenti (anche se parte di esso è andato in modo tangente). Mi piace in particolare la prospettiva che molte idee vecchio stile debbano essere riesaminate nell'era dei Big Data.

— horaceT

1

@horaceT Molto interessante. Almeno questo conferma la voce. Grazie. Quale programma ML era quello?

— Mike Hunter,

1

MLSS 2012 presso UC Santa Cruz. Il relatore è stato Tushar Chandra, ecco le slide, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf

— horaceT

2

@Glen_b Grazie per i commenti. Pensavo di aver fornito nomi e titoli per i riferimenti proprio a causa del problema del collegamento interrotto. Indipendentemente da ciò, aggiungerò una sezione di riferimento alla fine. Fammi sapere se manca qualcosa.

— Mike Hunter,

14

In termini di previsione, probabilmente dovrai pensare alla domanda su quanto velocemente il modello apprende le caratteristiche importanti. Anche pensando a OLS, questo ti darà qualcosa come la selezione del modello dato abbastanza dati. Sappiamo però che non converge abbastanza rapidamente a questa soluzione, quindi cerchiamo qualcosa di meglio.

La maggior parte dei metodi fa un'ipotesi sul tipo di beta / coefficienti che verranno incontrati (come una distribuzione precedente in un modello bayesiano). Funzionano meglio quando valgono queste ipotesi. Ad esempio, la regressione della cresta / lazo presuppone che la maggior parte dei beta siano sulla stessa scala con quasi lo zero vicino. Non funzioneranno altrettanto bene per le regressioni degli "aghi in un pagliaio" in cui la maggior parte dei beta sono zero e alcuni beta sono molto grandi (ovvero le scale sono molto diverse). La selezione delle funzioni potrebbe funzionare meglio qui: il lazo può rimanere bloccato tra la riduzione del rumore e il mantenimento del segnale. La selezione delle caratteristiche è più instabile: un effetto è "segnale" o "rumore".

In termini di decisione, è necessario avere un'idea di quale tipo di variabili predittive si dispone. Ne hai alcuni davvero buoni? O tutte le variabili sono deboli? Questo guiderà il profilo dei beta che avrai. E quali metodi di penalità / selezione usi (cavalli per i corsi e tutto il resto).

Anche la selezione delle funzioni non è male, ma alcune delle approssimazioni meno recenti a causa delle restrizioni computazionali non sono più valide (graduale, in avanti). La media del modello utilizzando la selezione delle caratteristiche (tutti i modelli 1 var, 2 modelli var, ecc. Ponderati in base alle loro prestazioni) farà un buon lavoro sulla previsione. Ma questi stanno essenzialmente penalizzando i beta attraverso il peso dato ai modelli con quella variabile esclusa - semplicemente non direttamente - e non in un modo convesso di ottimizzazione.

— probabilityislogic
fonte

12

Ti do la prospettiva dell'industria.

Alle industrie non piace spendere soldi per sensori e sistemi di monitoraggio di cui non sanno di quanti benefici trarranno vantaggio.

Ad esempio, non voglio nominare, quindi immagina un componente con 10 sensori che raccolgono dati ogni minuto. Il proprietario dell'asset si rivolge a me e mi chiede in che misura è possibile prevedere il comportamento del mio componente con questi dati provenienti da 10 sensori? Quindi eseguono un'analisi costi-benefici.

Quindi, hanno lo stesso componente con 20 sensori, mi chiedono, di nuovo, quanto riesci a prevedere il comportamento del mio componente con questi dati provenienti da 20 sensori? Eseguono un'altra analisi costi-benefici.

In ciascuno di questi casi, confrontano il vantaggio con il costo dell'investimento dovuto all'installazione dei sensori. (Non si tratta solo di aggiungere un sensore da $ 10 a un componente. Molti fattori svolgono un ruolo). Qui è dove può essere utile un'analisi di selezione variabile.

— PeyM87
fonte

1

Buon punto. Ma non conosceresti 10 sensori abbastanza buoni o non ne avresti bisogno di altri 10 fino a quando non avessi alcuni dati del 20.

— horaceT

Vero, e puoi sempre speculare sulla base di alcuni studi. Installi ciascun sensore con un obiettivo, per evitare guasti. Se i tassi di guasto sono bassi o hai già coperto le parti significative di un componente, sai che l'aggiunta di 1 sensore non porterà un grande ritorno. Quindi, non è necessario installare quei sensori, raccogliere dati ed eseguire uno studio per sapere se quei sensori aggiuntivi sono effettivamente abbastanza buoni.

— PeyM87,

"Sensori" potrebbe non significare sensori: nella mia azienda sottoscriviamo tutti i nostri dati, quindi esiste davvero un'opportunità per scoprire funzionalità che non contribuiscono a nulla e ridurre i costi rimuovendoli dal servizio di abbonamento (per essere chiari, i tassi di abbonamento sono elaborati a un livello superiore rispetto alle singole colonne, ma certamente è plausibile immaginare un elemento dell'abbonamento che contribuisce con una funzione a un modello finale e che è in grado di interrompere se non migliora le prestazioni)

— Robert de Graaf

9

Come parte di un algoritmo per l'apprendimento di un modello puramente predittivo, la selezione delle variabili non è necessariamente negativa dal punto di vista delle prestazioni, né è automaticamente pericolosa. Tuttavia, ci sono alcuni problemi che uno dovrebbe essere a conoscenza.

Per rendere la domanda un po 'più concreta, consideriamo il problema di regressione lineare con per e e essendo vidimensionali di variabili e parametri, rispettivamente. L'obiettivo è trovare una buona approssimazione della funzione che è la previsione di dato . Ciò può essere ottenuto stimando

E (Y_{i} ∣ X_{i}) = X_{i}^{T} β

$E(Y_i \mid X_i) = X_i^T \beta$

i = 1, \dots, N

$i = 1, \ldots, N$

X_{i}

$X_i$

β

$\beta$

p

$p$

x \mapsto E (Y ∣ X = x) = X^{T} β,

$x \mapsto E(Y \mid X = x) = X^T \beta,$

Y

$Y$

X = x

$X = x$

β

$\beta$ usando combinazioni di selezione variabile e minimizzazione di una funzione di perdita con o senza penalizzazione. È possibile utilizzare anche la media dei modelli o metodi bayesiani, ma concentriamoci sulle previsioni di singoli modelli.

Gli algoritmi di selezione graduale come la selezione di variabili in avanti e all'indietro possono essere visti come tentativi approssimativi di risolvere il miglior problema di selezione di un sottoinsieme, che è difficile dal punto di vista computazionale (così difficile che i miglioramenti del potere computazionale contano poco). L'interesse è nel trovare per ogni il modello migliore (o almeno un buono) con variabili. Successivamente, potremmo ottimizzare oltre . $k = 1, \ldots, \min(N, p)$ $k$ $k$

Il pericolo con una procedura di selezione così variabile è che molti risultati distributivi standard non sono validi in modo condizionale sulla selezione della variabile. Questo vale per i test standard e gli intervalli di confidenza, ed è uno dei problemi di cui Harrell [2] sta mettendo in guardia. Breiman anche messo in guardia circa la scelta del modello sulla base ad esempio Mallows' in The Little Bootstrap ... . Il Mallows , o AIC del , non tengono conto della selezione del modello e daranno errori di predizione eccessivamente ottimistici. $C_p$ $C_p$

Tuttavia, la convalida incrociata può essere utilizzata per stimare l'errore di previsione e per selezionare , e la selezione delle variabili può raggiungere un buon equilibrio tra distorsione e varianza. Ciò è particolarmente vero se ha alcune coordinate di grandi dimensioni con il resto vicino allo zero come menziona @probabilityislogic. $k$ $\beta$ $-$

I metodi di contrazione come la regressione della cresta e il lazo possono ottenere un buon compromesso tra distorsione e varianza senza una selezione esplicita delle variabili. Tuttavia, come menzionato nel PO, il lazo implica una selezione implicita delle variabili. Non è proprio il modello, ma piuttosto il metodo di adattamento del modello che effettua la selezione variabile. Da quel punto di vista, la selezione variabile (implicita o esplicita) fa semplicemente parte del metodo per adattare il modello ai dati e dovrebbe essere considerato come tale.

Gli algoritmi per il calcolo dello stimatore del lazo possono beneficiare della selezione (o dello screening) delle variabili. Nell'apprendimento statistico con sparsità: il lazo e le generalizzazioni , sezione 5.10, ha descritto come glmnetsia utile lo screening, come implementato in . Può portare a un calcolo sostanzialmente più veloce dello stimatore del lazo.

Un'esperienza personale proviene da un esempio in cui la selezione delle variabili ha permesso di adattare un modello più complicato (un modello di additivo generalizzato) usando le variabili selezionate. I risultati della validazione incrociata hanno indicato che questo modello era superiore a una serie di alternative sebbene non a una foresta casuale. Se gamsel fosse stato in giro che integra modelli di additivi generalizzati con la selezione delle variabili avrei potuto prendere in considerazione di provarlo pure. $-$ $-$ $-$

Modifica: da quando ho scritto questa risposta, c'è un documento sulla specifica applicazione che avevo in mente. È disponibile un codice R per la riproduzione dei risultati nel documento.

In sintesi , dirò che la selezione delle variabili (in una forma o nell'altra) è e rimarrà utile anche a scopi puramente predittivi come modo per controllare il compromesso della variazione di bias. Se non per altri motivi, almeno perché i modelli più complicati potrebbero non essere in grado di gestire un numero molto elevato di variabili predefinite. Tuttavia, col passare del tempo vedremo naturalmente sviluppi come Gamsel che integrano la selezione delle variabili nella metodologia di stima. $-$ $-$

Naturalmente, è sempre essenziale considerare la selezione delle variabili come parte del metodo di stima. Il pericolo è credere che la selezione delle variabili si comporti come un oracolo e identifichi l'insieme corretto di variabili. Se lo crediamo e procediamo come se le variabili non fossero selezionate in base ai dati, allora siamo a rischio di errori.

— NRH
fonte

1

Non sono chiaro su come la selezione delle variabili abbia permesso di adattare un modello più complicato. Con la selezione delle variabili si sta ancora stimando lo stesso numero elevato di parametri; stai solo stimando alcuni di essi come zero. La stabilità di un modello condizionale montato dopo la selezione variabile può essere un miraggio.

— Frank Harrell,

1

@Harrell, nell'esempio particolare la selezione delle variabili è stata effettuata usando il lazo in combinazione con la selezione della stabilità nel modello in cui tutte le variabili sono state inserite in modo lineare. Il gam è stato quindi adattato utilizzando le variabili selezionate. Sono completamente d'accordo sul fatto che la selezione delle variabili stia solo valutando alcuni parametri a zero e l'applicazione ha fatto esattamente questo in un modello di gam con una procedura in due passaggi. Sono sicuro che Gamsel fornisca un approccio più sistematico. Il mio punto era che senza un tale approccio, la selezione delle variabili può essere utile scorciatoia.

— NRH,

1

L'uso di un metodo non aperto per reinserire le variabili selezionate in una fase di penalizzazione precedente non è appropriato. Sarebbe sostanzialmente di parte. E la selezione di variabili non aperte non è una buona scorciatoia.

— Frank Harrell,

1

La selezione della stabilità è più conservativa rispetto alla selezione delle variabili mediante lazo e adattamento senza penalità. Quest'ultimo, prevedibilmente, non ha funzionato molto bene dal punto di vista predittivo (come misura per convalida incrociata). Quando, tramite una validazione incrociata in un caso concreto, scopro che la selezione variabile + gam offre prestazioni predittive migliori rispetto allo stimatore di cresta o lazo, allora questa è la mia misura per stabilire se la procedura è corretta.

— NRH,

1

Si prega di definire la "selezione della stabilità". E il rimontaggio senza penalità è anti-conservativo.

— Frank Harrell,

4

Consentitemi di commentare l'affermazione: "... l'adattamento di k parametri a n <k osservazioni non accadrà."

In chemiometria siamo spesso interessati a modelli predittivi e la situazione k >> n si incontra frequentemente (ad es. In dati spettroscopici). Questo problema viene in genere risolto semplicemente proiettando le osservazioni su un sottospazio dimensionale inferiore a, dove a <n, prima della regressione (ad es. Regressione del componente principale). Usando la regressione dei minimi quadrati parziali, la proiezione e la regressione vengono eseguite simultaneamente favorendo la qualità della previsione. I metodi citati trovano pseudo-inverse ottimali in una matrice di covarianza o di correlazione (singolare), ad esempio mediante decomposizione di valore singolare.

L'esperienza dimostra che le prestazioni predittive dei modelli multivariati aumentano quando vengono rimosse le variabili rumorose. Quindi, anche se noi - in modo significativo - siamo in grado di stimare k parametri che hanno solo n equazioni (n <k), cerchiamo modelli parsimoniosi. A tal fine, la selezione delle variabili diventa rilevante e molta letteratura chemiometrica è dedicata a questo argomento.

Mentre la previsione è un obiettivo importante, i metodi di proiezione offrono allo stesso tempo preziose informazioni su modelli di dati e rilevanza delle variabili. Ciò è facilitato principalmente da diversi diagrammi di modello, ad esempio punteggi, caricamenti, residui, ecc ...

La tecnologia chemiometrica viene ampiamente utilizzata, ad esempio nel settore in cui contano davvero previsioni affidabili e accurate.

— Carsten Ridder
fonte

3

In molti casi noti, sì, la selezione delle variabili non è necessaria. Il deep learning è diventato un po 'overhyped proprio per questo motivo.

Ad esempio, quando una rete neurale contorta ( http://cs231n.github.io/convolutional-networks/ ) tenta di prevedere se un'immagine centrata contiene un volto umano, gli angoli dell'immagine tendono ad avere un valore predittivo minimo. La modellazione tradizionale e la selezione delle variabili consentirebbero al modellatore di rimuovere i pixel degli angoli come predittori; tuttavia, la rete neurale contorta è abbastanza intelligente da scartare sostanzialmente questi predittori automaticamente. Questo è vero per la maggior parte dei modelli di apprendimento profondo che tentano di prevedere la presenza di alcuni oggetti in un'immagine (ad esempio, auto a guida autonoma che "predicono" segnaletica di corsia, ostacoli o altre auto in fotogrammi di video di streaming a bordo).

L'apprendimento profondo è probabilmente eccessivo per molti problemi tradizionali, ad esempio dove i set di dati sono piccoli o dove la conoscenza del dominio è abbondante, quindi la selezione di variabili tradizionali rimarrà probabilmente rilevante per lungo tempo, almeno in alcune aree. Tuttavia, l'apprendimento profondo è ottimo quando si desidera mettere insieme una soluzione "abbastanza buona" con un intervento umano minimo. Potrei impiegare molte ore a fabbricare e selezionare i predittori per riconoscere le cifre scritte a mano nelle immagini, ma con una rete neurale contorta e una selezione a zero variabili, posso avere un modello all'avanguardia in poco meno di 20 minuti usando TensorFlow di Google ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).

— Ryan Zotti
fonte

3

Mi piace molto questa prospettiva DL. In Computer Vision, le matrici di dati che si incontrano sono immagini 2D appiattite, in cui il significato di una particolare colonna dipende dall'osservazione. Ad esempio, il pixel 147 può essere la faccia di un gatto nell'immagine n. 27, ma è la parete di sfondo nell'immagine n. 42. Quindi, la selezione delle caratteristiche come sappiamo è che fallirebbe miseramente. Ecco perché ConvNet è così potente perché ha l'invarianza traslazionale / rotazionale incorporata.

— OrazioT