È importante che gli statistici imparino l'apprendimento automatico?


22

L'apprendimento automatico è una materia importante per qualsiasi statistico da conoscere? Sembra che l'apprendimento automatico sia statistico. Perché i programmi di statistica (universitari e laureati) non richiedono l'apprendimento automatico?


1
I lettori qui potrebbero essere interessati al seguente thread: Qual è la differenza tra data mining, statistiche, machine learning e AI .
gung - Ripristina Monica

2
Non lo so, ma sono abbastanza sicuro che chiunque faccia apprendimento automatico dovrebbe imparare le statistiche.
Dave,

Risposte:


18

L'apprendimento automatico è un campo specializzato di statistiche applicate ad alta dimensione. Richiede inoltre un notevole background di programmazione che non è necessario per un buon programma quantitativo, specialmente a livello universitario, ma anche in parte a livello universitario. Si applica solo all'aspetto predittivo delle statistiche, mentre le statistiche matematiche e quelle applicate inferenziali e descrittive richiedono attenzione. Molti programmi offrono agli studenti la possibilità di avere una grande esposizione all'apprendimento automatico (ad esempio CMU), ma nel complesso gli statistici industriali raramente hanno la possibilità di applicare questi strumenti, escludendo alcuni lavori tecnologici di alto profilo.

Mentre ho visto di recente molti scienziati dei dati e la macchina posizioni di apprendimento nel mercato del lavoro, penso che la descrizione generale del lavoro di "statistico" non richiede una macchina di apprendimento di fondo, ma non richiedono una conoscenza impeccabile di statistiche di base, l'inferenza, e la comunicazione: questi dovrebbero davvero essere il nucleo di un programma statistico per laureati. Anche l'apprendimento automatico e la scienza dei dati sono relativamente nuovi come titoli di lavoro e discipline. Sarebbe un disservizio per chi cerca lavoro come statistico influenzare le proprie strategie di risoluzione dei problemi verso l'apprendimento automatico se viene per lo più abbandonato nell'impresa commerciale / farmaceutica / delle bioscienze per un'efficacia deludente in 10 o 20 anni.

Infine, non credo che l'apprendimento automatico migliora enormemente una solida comprensione delle statistiche. La statistica è fondamentalmente un campo interdisciplinare ed è importante comunicare e convincere gli esperti non tecnici nel proprio campo (come medici, CFO o amministratori) esattamente perché si è scelta la metodologia scelta. L'apprendimento automatico è un campo di nicchia, altamente tecnico che, in molte pratiche applicate, promette solo prestazioni incrementalmente migliori rispetto agli strumenti e alle tecniche standard. Molti dei metodi di apprendimento supervisionato e non supervisionato sono percepiti dai non esperti (e anche da alcuni esperti meno qualificati) come "scatola nera". Quando viene chiesto di difendere la scelta di un metodo di apprendimento specifico, ci sono spiegazioni che non si adattano e non attingono a nessuna delle circostanze motivate dal problema applicato.


1
Potresti spiegare un po 'più in dettaglio cosa intendi esattamente con le spiegazioni che cadono piatte (esempi forse?)?
cbeleites supporta Monica il

10
Non riesco a descrivere le differenze tra un'analisi discriminante lineare, supportare le macchine vettoriali e un GLM LASSO in un modo sensato per un medico. Così ho costruito un modello di regressione logistica per la previsione del rischio di cancro al seno usando una manciata di covariate accuratamente adattate. Quando presentati, i medici hanno immediatamente avviato una discussione illuminante sulle loro dimensioni degli effetti. La discriminazione del mio modello di "scienza" era molto paragonabile a tecniche ML più sofisticate (sovrapposizioni di IC del 90% per AUC basate su bootstrap nel campione di validazione), e non sono il solo a presentare un caso simile!
AdamO

4
@cbeleites, hai mai dovuto comunicare con una persona sostanziale con al massimo una conoscenza algebrica del college? SVM non produce dimensioni di effetto in termini comprensibili ai medici; la larghezza del margine non ha senso per loro, a differenza dei rapporti dispari a cui sono molto abituati. Se non sai parlare la lingua del cliente, non perderanno tempo e denaro con te.
StasK

2
@GraemeWalsh punto fantastico. Faccio molta fatica con il concetto di utilizzare sofisticati modelli predittivi per inferenza predittiva, come spesso accade nel modello di equazione strutturale o nella causalità omonima di Granger. Penso che ci sia ancora molto lavoro da fare in questo settore. Ad esempio, intuitivamente riconosco una grande somiglianza tra modelli semi-parametrici e modelli strutturali marginali, ma non sono sicuro di dove siano le differenze.
AdamO,

2
@Jase dovresti dare un'occhiata al documento invitato dai vincitori del concorso Netflix. I loro rapporti erano molto simili, anche con la media del modello bayesiano che correva pesi posteriori su un ampio spazio di modelli, osservarono che Pca sembrava avere un peso posteriore dominante in tutte le condizioni. Questo non vuol dire che sono equivalenti, ma c'è un compromesso tra semplicità e accuratezza che mi fa preferire modelli più semplici di quelli offerti da ml arena. Si potrebbe analogamente pensare a come i modelli parametrici sofisticati si comportano in modo simile a quelli non parametrici.
AdamO,

14

OK, parliamo dell'elefante delle statistiche con la nostra vista bendata da ciò che abbiamo imparato da una o due persone con cui abbiamo lavorato a stretto contatto nei nostri programmi di laurea ...

I programmi statistici richiedono ciò che ritengono opportuno, ovvero quali sono le cose più importanti che vogliono che i loro studenti imparino, dato il tempo limitato che gli studenti avranno nel programma. Richiedere un'area ristretta significa dire addio ad altre aree che possono essere considerate ugualmente importanti. Alcuni programmi richiedono la misurazione della probabilità teorica, altri no. Alcuni richiedono una lingua straniera, ma molti programmi no. Alcuni programmi considerano il paradigma bayesiano come l'unica cosa che vale la pena studiare, ma la maggior parte no. Alcuni programmi sanno che la maggiore richiesta di statistici è nelle statistiche dei sondaggi (almeno negli Stati Uniti), ma la maggior parte no. I programmi Biostat seguono i soldi e insegnano a SAS + i metodi che venderanno facilmente alle scienze mediche e farmaceutiche.

Per una persona che progetta esperimenti agricoli, o raccoglie dati di sondaggi tramite sondaggi telefonici, o convalida bilance psicometriche o produce mappe di incidenza di malattie in un GIS, l'apprendimento automatico è un'arte astratta dell'informatica, molto distante dalle statistiche con cui lavora quotidianamente base. Nessuna di queste persone vedrà alcun beneficio immediato dall'apprendimento di macchine vettoriali di supporto o foreste casuali.

Tutto sommato, l'apprendimento automatico è un buon complemento ad altre aree della statistica, ma direi che le cose principali come la distribuzione normale multivariata e i modelli lineari generalizzati devono venire prima di tutto.


5

L'apprendimento automatico riguarda l'acquisizione di conoscenza / apprendimento dai dati. Ad esempio, lavoro con algoritmi di apprendimento automatico che possono selezionare alcuni geni che possono essere coinvolti in un particolare tipo di malattia dai dati del DNA Microarray (ad esempio tumori o diabete). Gli scienziati possono quindi utilizzare questi geni (modelli appresi) per la diagnosi precoce in futuro (classificazione dei campioni invisibili).

Ci sono molte statistiche coinvolte nell'apprendimento automatico ma ci sono rami dell'apprendimento automatico che non richiedono statistiche (ad es. Programmazione genetica). L'unica volta in cui avresti bisogno di statistiche in questi casi sarebbe vedere se un modello che hai creato usando l'apprendimento automatico è statisticamente significativamente diverso da qualche altro modello.

A mio avviso, un'introduzione all'apprendimento automatico per gli statistici sarebbe vantaggiosa . Ciò aiuterà gli statistici a vedere scenari reali di applicazione delle statistiche. Tuttavia, non dovrebbe essere obbligatorio . Puoi diventare uno statistico di successo e passare tutta la vita senza mai dover avvicinarti all'apprendimento automatico!


2
Direi che hai bisogno di statistiche ogni volta che segnali le prestazioni del tuo modello. Ciò è dovuto al fatto che la mia professione è la chimica analitica, dove una delle regole importanti è "un numero senza intervallo di confidenza non è un risultato".
cbeleites supporta Monica il

1
@cbeleites Sono d'accordo con te. Quello che intendevo dire era che gli statistici non hanno necessariamente bisogno di essere esperti di apprendimento automatico! Possono cavarsela senza apprendere l'apprendimento automatico :)
rivoluzioni

1
@cbeleites o intervalli di confidenza multipli nel caso di esimatori multimodali (ad es. Sivia & Skilling Data Analysis ).
alancalvitti,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.