In generale, fare inferenza è più difficile che fare previsioni?


13

La mia domanda viene dal seguente fatto. Ho letto post, blog, lezioni e libri sull'apprendimento automatico. La mia impressione è che i professionisti dell'apprendimento automatico sembrano essere indifferenti a molte cose a cui tengono gli statistici / econometrici. In particolare, i professionisti dell'apprendimento automatico enfatizzano l'accuratezza della previsione sull'inferenza.

Uno di questi esempi si è verificato quando stavo prendendo Machine Learning di Andrew Ng su Coursera. Quando discute del modello lineare semplice, non menziona nulla sulla proprietà BLU degli stimatori o su come l'eteroschedasticità "invaliderebbe" l'intervallo di confidenza. Si concentra invece sull'implementazione della discesa gradiente e sul concetto di convalida incrociata / curva ROC. Questi argomenti non sono stati trattati nelle mie lezioni di econometria / statistica.

Un altro esempio si è verificato quando ho partecipato alle competizioni di Kaggle. Stavo leggendo il codice e i pensieri degli altri. Gran parte dei partecipanti ha semplicemente gettato tutto in SVM / random forest / XGBoost.

Ancora un altro esempio riguarda la selezione graduale del modello. Questa tecnica è ampiamente utilizzata, almeno online e su Kaggle. Molti libri di testo classici di machine learning lo riguardano anche, come Introduzione all'apprendimento statistico. Tuttavia, secondo questa risposta (che è abbastanza convincente), la selezione graduale del modello deve affrontare molti problemi soprattutto quando si tratta di "scoprire il vero modello". Sembra che ci siano solo due possibilità: o i professionisti dell'apprendimento automatico non conoscono il problema in modo graduale, oppure lo fanno ma a loro non importa.

Quindi, ecco le mie domande:

  1. È vero che (in generale) i professionisti dell'apprendimento automatico si concentrano sulla previsione e quindi non si preoccupano di molte cose a cui interessano gli statistici / gli economisti?
  2. Se è vero, allora qual è il motivo dietro? È perché l'inferenza è più difficile in un certo senso?
  3. Ci sono tonnellate di materiali sull'apprendimento automatico (o sulla previsione) online. Se sono interessato a imparare a fare l'inferenza, tuttavia, quali sono le risorse online che posso consultare?

Aggiornamento : ho appena capito che la parola "inferenza" potrebbe potenzialmente significare un sacco di cose. Quello che intendevo per "inferenza" si riferisce a domande come

  1. Ha fatto causa o causati ? O più in generale, quali sono le relazioni causali tra ?XYYXX1,X2,,Xn

  2. Dato che "tutti i modelli sono sbagliati", quanto "sbagliato" è il nostro modello rispetto al modello vero?

  3. Dati i dati di un campione, cosa possiamo dire della popolazione e quanto possiamo dirlo?

A causa delle mie conoscenze statistiche molto limitate, non sono nemmeno sicuro che tali domande rientrino o meno nel regno delle statistiche. Ma questi sono i tipi di domande a cui i professionisti dell'apprendimento automatico non sembrano preoccuparsi. Forse neanche agli statistici piace? Non lo so.


2
Brian D Ripley è citato su useR! 2004 con "Per parafrasare provocatoriamente, l'apprendimento automatico è la statistica meno qualsiasi controllo di modelli e ipotesi". La frase è diventata parte del fortunespacchetto su CRAN. Questo solo per dire che non sei solo con l'impressione, che il rigore matematico non è sempre la preoccupazione principale nell'apprendimento automatico.
Bernhard,

Leo Breiman affronta esattamente questa domanda nel suo articolo del 2001 "Statistical Modeling: the two culture" , che è un'ottima lettura.
skd

Risposte:


6

Innanzitutto, avrei una prospettiva diversa per l'apprendimento automatico. Quello che hai menzionato, la lezione di Andrew Ng Coursera e la competizione Kaggle non sono il 100% dell'apprendimento automatico, ma alcuni settori che mirano ad applicazioni pratiche. La vera ricerca sull'apprendimento automatico dovrebbe essere il lavoro che ha inventato il modello casuale di potenziamento della foresta / SVM / gradiente, che è abbastanza vicino alle statistiche / alla matematica.

Concordo sul fatto che i professionisti dell'apprendimento automatico si concentrano maggiormente sull'accuratezza rispetto a statistici / economisti. Ci sono ragioni per cui le persone interessate a ottenere una maggiore precisione, piuttosto che "inferenza sulla vera distribuzione". Il motivo principale è il modo in cui raccogliamo e utilizziamo i dati è stato modificato negli ultimi decenni.

Le statistiche sono state stabilite per centinaia di anni, ma in passato nessuno pensava che tu avessi miliardi di dati per la formazione e altri miliardi di dati per i test. (Ad esempio, numero di immagini su Internet). Pertanto, con una quantità relativamente piccola di dati, sono necessari presupposti dalla conoscenza del dominio per svolgere il lavoro. Oppure puoi pensare di "regolarizzare" il modello. Una volta fatte le ipotesi, allora ci sono problemi di inferenza sulla distribuzione "vera".

Tuttavia, se ci pensiamo attentamente, possiamo assicurarci che questi presupposti siano veri e che le inferenze siano valide? Vorrei citare George Box:

Tutti i modelli sono sbagliati ma alcuni sono utili

Ora, torniamo a pensare all'approccio pratico per porre più enfasi sull'accuratezza che sull'assunzione / inferenza. È un buon approccio quando disponiamo di enormi quantità di dati.

Supponiamo di costruire un modello per tutte le immagini che contengono volti umani a livello di pixel. Innanzitutto, è molto difficile proporre le ipotesi a livello di pixel per miliardi di immagini: nessuno ha questa conoscenza del dominio. In secondo luogo, possiamo pensare a tutti i modi possibili per adattare i dati e, poiché i dati sono enormi, tutti i modelli che abbiamo potrebbero non essere sufficienti (quasi impossibile adattarli in modo eccessivo).

Questo è anche il motivo per cui la "rete di apprendimento profondo / neurale" è tornata popolare. Sotto la condizione dei big data, possiamo scegliere un modello davvero complesso e adattarlo al meglio possibile, e potremmo ancora OK, perché le nostre risorse computazionali sono limitate, rispetto a tutti i dati reali nella parola.

Infine, se il modello che abbiamo creato è buono in enormi set di dati di test, allora sono buoni e preziosi, anche se potremmo non conoscere il presupposto di sottolineatura o la vera distribuzione.


Voglio sottolineare che la parola "inferenza" ha significati diversi nelle diverse comunità.

  • Nella comunità statistica, di solito significa ottenere informazioni sulla vera distribuzione in modo parametrico o non parametrico.
  • Nella comunità dell'apprendimento automatico, di solito significa calcolare determinate probabilità da una determinata distribuzione. Vedi l'esercitazione sui modelli grafici di Murphy per esempi.
  • Nell'apprendimento automatico, le persone usano la parola "apprendimento" per rappresentare "ottenere i parametri della vera distribuzione", che è simile all '"inferenza" nella comunità statistica.

Quindi, puoi vedere, in sostanza, ci sono molte persone nell'apprendimento automatico che stanno facendo "inferenza".

Inoltre, potresti anche pensare a persone del mondo accademico che desiderano "re-brand il loro lavoro e rivendita": trovare nuovi termini può essere utile per mostrare la novità della ricerca. In effetti, ci sono molte sovrapposizioni tra intelligenza artificiale, data mining e machine learning. E sono strettamente correlati alla statistica e alla progettazione dell'algoritmo. Ancora una volta non ci sono confini chiari per fare "inferenza" o no.


3
Posso vedere da dove vieni. Un take alternativo potrebbe essere: previsione = focus sulle variabili osservate, inferenza = focus sulle variabili nascoste. Quindi, in un certo senso, l'inferenza sta cercando di produrre nuovi tipi di misurazioni, mentre la predizione riguarda maggiormente le nuove realizzazioni di misurazioni che in linea di principio potrebbero essere osservate? (Questo è compatibile con la tua risposta, ovviamente)
GeoMatt22
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.