La parsimonia dovrebbe davvero essere ancora il gold standard?


31

Solo un pensiero:

I modelli parsimoniosi sono sempre stati il ​​punto di partenza predefinito nella selezione dei modelli, ma in che misura questo approccio è obsoleto? Sono curioso di sapere quanto la nostra tendenza alla parsimonia sia una reliquia di un tempo di regole abaci e slide (o, più seriamente, computer non moderni). La potenza di calcolo di oggi ci consente di costruire modelli sempre più complessi con capacità di previsione sempre maggiori. A causa di questo aumento del massimale della potenza di calcolo, dobbiamo davvero ancora gravitare verso la semplicità?

Certo, i modelli più semplici sono più facili da capire e interpretare, ma nell'era dei set di dati in continua crescita con un numero maggiore di variabili e uno spostamento verso una maggiore attenzione alla capacità di previsione, questo potrebbe non essere più nemmeno realizzabile o necessario.

Pensieri?


4
Ci scusiamo con Richard Hamming: lo scopo della modellazione è l'intuizione, non i numeri. I modelli complicati impediscono la comprensione.
Eric Towers,

12
I modelli semplificati impediscono ancora di più la comprensione.
Frank Harrell,

6
Può dipendere dall'applicazione; in fisica, penso che l'argomento per la parsimonia avrà una base solida. Tuttavia, molte applicazioni avranno una miriade di piccoli effetti che non possono essere eliminati (ad esempio prendere in considerazione modelli per le preferenze politiche). Un certo numero di lavoratori suggerisce che l'uso della regolarizzazione (come metodi che portano al restringimento o in molte applicazioni al restringimento delle differenze, o entrambi) piuttosto che all'eliminazione delle variabili ha più senso; altri si inclinano verso una certa selezione e un certo restringimento (ad esempio LASSO, entrambi).
Glen_b

3
I modelli parsimoniosi non sono il "go-to" nella selezione dei modelli. Altrimenti modelleremmo sempre tutto con la sua media campionaria e lo chiameremmo un giorno.
Shadowtalker,

1
Inoltre, alcuni spunti di riflessione: Mease e Wyner (2008) raccomandano agli studenti più ricchi di AdaBoost, che è un po 'poco intuitivo. Una domanda aperta in quella linea di ricerca sembra essere se gli apprendenti base parsimoniosi conducano effettivamente a gruppi parsimoniosi.
Shadowtalker,

Risposte:


25

La risposta originale di Matt fa un ottimo lavoro nel descrivere uno dei vantaggi della parsimonia, ma non credo che risponda effettivamente alla tua domanda. In realtà, la parsimonia non è il gold standard. Non ora e non è mai stato. Un "gold standard" relativo alla parsimonia è l'errore di generalizzazione. Vorremmo sviluppare modelli che non si adattano troppo. Ciò è utile per la previsione (o come interpretabile o con un errore minimo) fuori campione come lo sono nel campione. Si scopre (a causa delle cose sopra esposte) che la parsimonia è in realtà un buon proxy per l'errore di generalizzazione, ma non è affatto l'unico.

Pensa davvero al perché utilizziamo la validazione incrociata o il bootstrap o i set di treni / test. L'obiettivo è creare modelli con una buona precisione di generalizzazione. Molte volte, questi modi di stimare le prestazioni al di fuori del campione finiscono per scegliere modelli con complessità inferiore ma non sempre. Ad esempio, immaginiamo che l'oracolo ci consegni il modello vero ma estremamente complesso e un modello povero ma parsimonioso. Se la parsimonia fosse davvero il nostro obiettivo, sceglieremmo il secondo, ma in realtà il primo è ciò che vorremmo imparare se potessimo. Sfortunatamente molte volte l'ultima frase è il kicker "se potessimo".


Qual è la "risposta originale"?
Mattdm,

:) giusto. Il commento di Matt.
Nick Thieme,

22

I modelli parsimoniosi sono desiderabili non solo per i requisiti di elaborazione, ma anche per le prestazioni di generalizzazione. È impossibile raggiungere l'ideale di infiniti dati che coprono completamente e accuratamente lo spazio del campione, il che significa che i modelli non parsimoniosi hanno il potenziale per sovrautilizzare e modellare il rumore o le idiosincrasie nella popolazione del campione.

È certamente possibile costruire un modello con milioni di variabili, ma per modellare il sistema useresti variabili che non hanno alcun impatto sull'output. È possibile ottenere grandi prestazioni predittive sul set di dati di allenamento, ma quelle variabili irrilevanti probabilmente riducono le prestazioni su un set di test invisibile.

Se una variabile di output è veramente il risultato di un milione di variabili di input, allora faresti bene a inserirle tutte nel tuo modello predittivo, ma solo se disponi di dati sufficienti . Per costruire con precisione un modello di queste dimensioni, occorrerebbero almeno milioni di punti dati. I modelli parsimoniosi sono belli perché in molti sistemi del mondo reale, un set di dati di queste dimensioni semplicemente non è disponibile e, inoltre, l'output è in gran parte determinato da un numero relativamente piccolo di variabili.


5
+1. Suggerisco di leggere The Elements of Statistical Learning (disponibile gratuitamente sul web) , che discute in profondità questo problema.
S. Kolassa - Ripristina Monica il

3
D'altro canto, quando si hanno milioni di variabili e pochi oggetti, è probabile che alcune variabili siano puramente casuali a spiegare meglio il risultato della vera interazione. In tal caso, la modellazione basata sulla parsimonia sarà più suscettibile al sovradimensionamento rispetto a un approccio a forza bruta.

@CagdasOzgenc Ad esempio un grande insieme di sottospazi casuali.

Sento che qualcosa come un approccio Lazo potrebbe applicarsi qui.
theforestecologist

17

Penso che le risposte precedenti facciano un buon lavoro nel formulare punti importanti:

  • I modelli parsimoniosi tendono ad avere migliori caratteristiche di generalizzazione.
  • La parsimonia non è veramente un gold standard, ma solo una considerazione.

Voglio aggiungere alcuni commenti che derivano dalla mia esperienza lavorativa quotidiana.

La generalizzazione dell'argomentazione della precisione predittiva è, ovviamente, forte, ma è al centro dell'attenzione accademica. In generale, quando si produce un modello statistico, le economie non sono tali che la performance predittiva è una considerazione completamente dominante. Molto spesso ci sono grandi vincoli esterni sull'aspetto di un modello utile per una data applicazione:

  • Il modello deve essere implementabile all'interno di un framework o sistema esistente.
  • Il modello deve essere comprensibile da un'entità non tecnica.
  • Il modello deve essere efficiente dal punto di vista computazionale.
  • Il modello deve essere documentabile .
  • Il modello deve superare i vincoli normativi .

Nei domini applicativi reali, molte se non tutte queste considerazioni vengono prima , non dopo , prestazioni predittive - e l'ottimizzazione della forma e dei parametri del modello è vincolata da questi desideri. Ognuno di questi vincoli orienta lo scienziato verso la parsimonia.

Può essere vero che in molti settori questi vincoli vengono gradualmente eliminati. Ma è proprio lo scienziato fortunato che riesce a ignorarli, ma si concentra esclusivamente sulla minimizzazione dell'errore di generalizzazione.

Questo può essere molto frustrante per la prima volta scienziato, appena uscito dalla scuola (sicuramente è stato per me, e continua ad esserlo quando sento che i vincoli posti sul mio lavoro non sono giustificati). Ma alla fine, lavorare sodo per produrre un prodotto inaccettabile è uno spreco, e questo è peggio del dolore per il tuo orgoglio scientifico.


2
Nessuna parsimonia non è una considerazione. Una sana procedura di inferenza DEVE classificare un modello parsimonioso rispetto a un modello non parsimonioso se spiegano i dati ugualmente bene. In caso contrario, la lunghezza totale codificata del modello e i dati codificati dal modello non saranno i più piccoli. Quindi sì, è un gold standard.
Cagdas Ozgenc,

3
La parsimonia NON è un "gold standard"! Questa affermazione è assurda. Se fosse vero, allora perché non costruiamo sempre modelli che si adattano solo al significato incondizionato? Scambiamo la distorsione e la varianza con riferimento a una serie di test o, meglio ancora, a osservazioni completamente nuove, e lo facciamo nei limiti del nostro campo, organizzazione e legge. A volte hai solo informazioni sufficienti per fare previsioni ingenue. A volte hai abbastanza per aggiungere complessità.
Brash Equilibrium,

1
@BrashEquilibrium Penso che stia dicendo Cagdas, data la scelta tra modelli ugualmente predittivi, si dovrebbe scegliere quello più parsimonioso.
Matthew Drury,

1
Ah. È una cosa diversa. Sì, in tal caso scegli il modello più parsimonioso. Tuttavia, non penso che ciò significhi che la parsimonia è un "gold standard".
Brash Equilibrium,

1
@MatthewDrury Brash, Cagdas. Interessante. Forse la parsimonia è solo una componente del gold standard; che è probabilmente (o dovrebbe essere) meglio basato sulla nozione di comprendere . Una buona esposizione di questa idea è fornita nella seguente lezione di astrofisica di Yale: oyc.yale.edu/astronomy/astr-160/lecture-11 . 7:04 in poi. L'idea compare anche nella letteratura econometrica / di previsione di David Hendry e Grayham Mizon. Sostengono che comprendere sia parte di una strategia di ricerca progressiva, di cui la parsimonia è un singolo aspetto.
Graeme Walsh,

14

Penso che questa sia un'ottima domanda. Secondo me la parsimonia è sopravvalutata. La natura è raramente parsimoniosa, e quindi non dovremmo necessariamente aspettarci che siano accurati modelli predittivi o descrittivi. Per quanto riguarda la domanda di interpretabilità, se si sceglie un modello più semplice che si conforma modestamente alla realtà solo perché la si capisce, cosa si capisce esattamente? Supponendo che un modello più complesso avesse un potere predittivo migliore, sembrerebbe comunque essere più vicino ai fatti reali.


8
Ben detto @dsaxton. Vi è un grande malinteso sulla parsimonia e un grande sottovalutazione di quanto sia volatile la selezione delle caratteristiche. La parsimonia è piacevole quando deriva dalla pre-specifica. La maggior parte della parsimonia derivante dal dragaggio dei dati è fuorviante e viene compresa solo perché è errata.
Frank Harrell,

2
@FrankHarrell Vuoi approfondire "capito solo perché è sbagliato", o forse link a qualcosa che hai scritto in precedenza su questo? Questo è un punto interessante che vorrei assicurarmi di capire.
gui11aume,

8
Questo è un esempio estremo, ma le persone che si dedicano alla profilazione razziale pensano di capire, con una singola caratteristica (ad esempio, il colore della pelle), quale valore ha qualcuno. Per loro la risposta è semplice. Lo capiscono solo perché stanno facendo un giudizio sbagliato semplificando troppo. La parsimonia è di solito un'illusione (tranne nella meccanica newtoniana e in alcune altre aree).
Frank Harrell,

1
"La natura è raramente parsimoniosa": e un punto in cui la natura è particolarmente non parsimoniosa sono gli individui (al contrario delle nostre dimensioni tipiche del campione!). L'evoluzione utilizza una nuova popolazione di nuovi individui ogni generazione ... IMHO la parsimonia (il tipo pre-specificato di Frank Harrell - consentire qualsiasi n di m funzionalità disponibili nel modello è in realtà un modello molto complesso - anche se n << m, questa è una frazione non molto piccola dello spazio di ricerca originale) è il modo in cui proviamo a ottenere almeno qualcosa dai nostri insiemi di dati fin troppo piccoli.
cbeleites supporta Monica il

2

La parsimonia non è un inizio d'oro. È un aspetto della modellazione. La modellazione e in particolare la previsione non possono essere copiate, cioè non puoi semplicemente consegnare uno script a un modellatore da seguire. Si definiscono piuttosto i principi su cui deve basarsi il processo di modellizzazione. Quindi, la parsimonia è uno di questi principi, la cui applicazione non può essere scritta (di nuovo!). Un modellatore considererà la complessità quando un modello di selezione.

Il potere computazionale ha poco a che fare con questo. Se sei nel settore, i tuoi modelli saranno consumati da uomini d'affari, prodotti, chiunque li chiami. Devi spiegare loro il tuo modello, dovrebbe avere un senso per loro. Avere modelli parsimoniosi aiuta in questo senso.

Ad esempio, stai prevedendo le vendite dei prodotti. Dovresti essere in grado di descrivere quali sono i driver delle vendite e come funzionano. Questi devono essere correlati ai concetti con cui opera l'azienda e le correlazioni devono essere comprese e accettate dalle imprese. Con modelli complessi potrebbe essere molto difficile interpretare i risultati del modello o attribuire le differenze con i reali. Se non riesci a spiegare i tuoi modelli al business, non ne sarai valutato.

Un'altra cosa particolarmente importante per le previsioni. Supponiamo che il tuo modello dipenda da N variabili esogene. Ciò significa che devi prima ottenere le previsioni di queste variabili per prevedere la tua variabile dipendente. Avere una N più piccola ti semplifica la vita, quindi un modello più semplice è più facile da usare.


Sebbene menzioni la previsione, la maggior parte della tua risposta sembra applicarsi solo alla modellazione esplicativa.
rolando2,

@ rolando2, sembra così perché nel mio dominio non puoi semplicemente consegnare la previsione agli utenti. Dobbiamo spiegare le previsioni, collegarle ai conducenti, ecc. Quando ricevi le previsioni del tempo normalmente non chiedi al meteorologo di spiegarti perché esattamente pensano che pioverà con una probabilità del 50%. Nel mio caso, non solo devo farlo, ma farlo in modo che i miei consumatori comprendano i risultati collegandolo ai driver di business con cui si occupano quotidianamente. Ecco perché la parsimonia è preziosa a sé stante
Aksakal,

1

Forse hai una recensione dell'Akaike Information Criterion , un concetto che ho scoperto solo per caso ieri. L'AIC cerca di identificare quale modello e quanti parametri sono la migliore spiegazione per le osservazioni a portata di mano, piuttosto che qualsiasi approccio Occam's Razor o approccio di parsimonia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.