La mia domanda viene dal seguente fatto. Ho letto post, blog, lezioni e libri sull'apprendimento automatico. La mia impressione è che i professionisti dell'apprendimento automatico sembrano essere indifferenti a molte cose a cui tengono gli statistici / econometrici. In particolare, i professionisti dell'apprendimento automatico enfatizzano l'accuratezza della previsione sull'inferenza.
Uno di questi esempi si è verificato quando stavo prendendo Machine Learning di Andrew Ng su Coursera. Quando discute del modello lineare semplice, non menziona nulla sulla proprietà BLU degli stimatori o su come l'eteroschedasticità "invaliderebbe" l'intervallo di confidenza. Si concentra invece sull'implementazione della discesa gradiente e sul concetto di convalida incrociata / curva ROC. Questi argomenti non sono stati trattati nelle mie lezioni di econometria / statistica.
Un altro esempio si è verificato quando ho partecipato alle competizioni di Kaggle. Stavo leggendo il codice e i pensieri degli altri. Gran parte dei partecipanti ha semplicemente gettato tutto in SVM / random forest / XGBoost.
Ancora un altro esempio riguarda la selezione graduale del modello. Questa tecnica è ampiamente utilizzata, almeno online e su Kaggle. Molti libri di testo classici di machine learning lo riguardano anche, come Introduzione all'apprendimento statistico. Tuttavia, secondo questa risposta (che è abbastanza convincente), la selezione graduale del modello deve affrontare molti problemi soprattutto quando si tratta di "scoprire il vero modello". Sembra che ci siano solo due possibilità: o i professionisti dell'apprendimento automatico non conoscono il problema in modo graduale, oppure lo fanno ma a loro non importa.
Quindi, ecco le mie domande:
- È vero che (in generale) i professionisti dell'apprendimento automatico si concentrano sulla previsione e quindi non si preoccupano di molte cose a cui interessano gli statistici / gli economisti?
- Se è vero, allora qual è il motivo dietro? È perché l'inferenza è più difficile in un certo senso?
- Ci sono tonnellate di materiali sull'apprendimento automatico (o sulla previsione) online. Se sono interessato a imparare a fare l'inferenza, tuttavia, quali sono le risorse online che posso consultare?
Aggiornamento : ho appena capito che la parola "inferenza" potrebbe potenzialmente significare un sacco di cose. Quello che intendevo per "inferenza" si riferisce a domande come
Ha fatto causa o causati ? O più in generale, quali sono le relazioni causali tra ?
Dato che "tutti i modelli sono sbagliati", quanto "sbagliato" è il nostro modello rispetto al modello vero?
Dati i dati di un campione, cosa possiamo dire della popolazione e quanto possiamo dirlo?
A causa delle mie conoscenze statistiche molto limitate, non sono nemmeno sicuro che tali domande rientrino o meno nel regno delle statistiche. Ma questi sono i tipi di domande a cui i professionisti dell'apprendimento automatico non sembrano preoccuparsi. Forse neanche agli statistici piace? Non lo so.
fortunes
pacchetto su CRAN. Questo solo per dire che non sei solo con l'impressione, che il rigore matematico non è sempre la preoccupazione principale nell'apprendimento automatico.