L'apprendimento automatico è una materia importante per qualsiasi statistico da conoscere? Sembra che l'apprendimento automatico sia statistico. Perché i programmi di statistica (universitari e laureati) non richiedono l'apprendimento automatico?
L'apprendimento automatico è una materia importante per qualsiasi statistico da conoscere? Sembra che l'apprendimento automatico sia statistico. Perché i programmi di statistica (universitari e laureati) non richiedono l'apprendimento automatico?
Risposte:
L'apprendimento automatico è un campo specializzato di statistiche applicate ad alta dimensione. Richiede inoltre un notevole background di programmazione che non è necessario per un buon programma quantitativo, specialmente a livello universitario, ma anche in parte a livello universitario. Si applica solo all'aspetto predittivo delle statistiche, mentre le statistiche matematiche e quelle applicate inferenziali e descrittive richiedono attenzione. Molti programmi offrono agli studenti la possibilità di avere una grande esposizione all'apprendimento automatico (ad esempio CMU), ma nel complesso gli statistici industriali raramente hanno la possibilità di applicare questi strumenti, escludendo alcuni lavori tecnologici di alto profilo.
Mentre ho visto di recente molti scienziati dei dati e la macchina posizioni di apprendimento nel mercato del lavoro, penso che la descrizione generale del lavoro di "statistico" non richiede una macchina di apprendimento di fondo, ma non richiedono una conoscenza impeccabile di statistiche di base, l'inferenza, e la comunicazione: questi dovrebbero davvero essere il nucleo di un programma statistico per laureati. Anche l'apprendimento automatico e la scienza dei dati sono relativamente nuovi come titoli di lavoro e discipline. Sarebbe un disservizio per chi cerca lavoro come statistico influenzare le proprie strategie di risoluzione dei problemi verso l'apprendimento automatico se viene per lo più abbandonato nell'impresa commerciale / farmaceutica / delle bioscienze per un'efficacia deludente in 10 o 20 anni.
Infine, non credo che l'apprendimento automatico migliora enormemente una solida comprensione delle statistiche. La statistica è fondamentalmente un campo interdisciplinare ed è importante comunicare e convincere gli esperti non tecnici nel proprio campo (come medici, CFO o amministratori) esattamente perché si è scelta la metodologia scelta. L'apprendimento automatico è un campo di nicchia, altamente tecnico che, in molte pratiche applicate, promette solo prestazioni incrementalmente migliori rispetto agli strumenti e alle tecniche standard. Molti dei metodi di apprendimento supervisionato e non supervisionato sono percepiti dai non esperti (e anche da alcuni esperti meno qualificati) come "scatola nera". Quando viene chiesto di difendere la scelta di un metodo di apprendimento specifico, ci sono spiegazioni che non si adattano e non attingono a nessuna delle circostanze motivate dal problema applicato.
OK, parliamo dell'elefante delle statistiche con la nostra vista bendata da ciò che abbiamo imparato da una o due persone con cui abbiamo lavorato a stretto contatto nei nostri programmi di laurea ...
I programmi statistici richiedono ciò che ritengono opportuno, ovvero quali sono le cose più importanti che vogliono che i loro studenti imparino, dato il tempo limitato che gli studenti avranno nel programma. Richiedere un'area ristretta significa dire addio ad altre aree che possono essere considerate ugualmente importanti. Alcuni programmi richiedono la misurazione della probabilità teorica, altri no. Alcuni richiedono una lingua straniera, ma molti programmi no. Alcuni programmi considerano il paradigma bayesiano come l'unica cosa che vale la pena studiare, ma la maggior parte no. Alcuni programmi sanno che la maggiore richiesta di statistici è nelle statistiche dei sondaggi (almeno negli Stati Uniti), ma la maggior parte no. I programmi Biostat seguono i soldi e insegnano a SAS + i metodi che venderanno facilmente alle scienze mediche e farmaceutiche.
Per una persona che progetta esperimenti agricoli, o raccoglie dati di sondaggi tramite sondaggi telefonici, o convalida bilance psicometriche o produce mappe di incidenza di malattie in un GIS, l'apprendimento automatico è un'arte astratta dell'informatica, molto distante dalle statistiche con cui lavora quotidianamente base. Nessuna di queste persone vedrà alcun beneficio immediato dall'apprendimento di macchine vettoriali di supporto o foreste casuali.
Tutto sommato, l'apprendimento automatico è un buon complemento ad altre aree della statistica, ma direi che le cose principali come la distribuzione normale multivariata e i modelli lineari generalizzati devono venire prima di tutto.
L'apprendimento automatico riguarda l'acquisizione di conoscenza / apprendimento dai dati. Ad esempio, lavoro con algoritmi di apprendimento automatico che possono selezionare alcuni geni che possono essere coinvolti in un particolare tipo di malattia dai dati del DNA Microarray (ad esempio tumori o diabete). Gli scienziati possono quindi utilizzare questi geni (modelli appresi) per la diagnosi precoce in futuro (classificazione dei campioni invisibili).
Ci sono molte statistiche coinvolte nell'apprendimento automatico ma ci sono rami dell'apprendimento automatico che non richiedono statistiche (ad es. Programmazione genetica). L'unica volta in cui avresti bisogno di statistiche in questi casi sarebbe vedere se un modello che hai creato usando l'apprendimento automatico è statisticamente significativamente diverso da qualche altro modello.
A mio avviso, un'introduzione all'apprendimento automatico per gli statistici sarebbe vantaggiosa . Ciò aiuterà gli statistici a vedere scenari reali di applicazione delle statistiche. Tuttavia, non dovrebbe essere obbligatorio . Puoi diventare uno statistico di successo e passare tutta la vita senza mai dover avvicinarti all'apprendimento automatico!