Competenze difficili da trovare negli studenti di macchine?


71

Sembra che il data mining e l'apprendimento automatico siano diventati così popolari che ora quasi tutti gli studenti CS conoscono classificatori, clustering, PNL statistica ... ecc. Quindi, al giorno d'oggi, non è difficile trovare minatori di dati.

La mia domanda è: quali sono le competenze che un data mining potrebbe apprendere che lo renderebbe diverso dagli altri? Per renderlo un tipo di persona non così facile da trovare.


6
Mentre è una risposta a una domanda diversa, molti dei punti di una mia vecchia risposta possono essere riportati qui. Assad fa alcune osservazioni simili nella sua simpatica risposta di seguito.
cardinale il

Risposte:


62

Ho visto più volte gli sviluppatori usare tecniche ML. Questo è il solito schema:

  1. libreria di download con nome di fantasia;
  2. passare 10 minuti a leggere come usarlo (saltando qualsiasi statistica, matematica, ecc.);
  3. alimentare con i dati (nessuna preelaborazione);
  4. misurare le prestazioni (es. precisione anche se le classi sono totalmente sbilanciate) e dire a tutti quanto è fantastico con la sua precisione del 99%;
  5. schierarsi in produzione con risultati di fallimento epici;
  6. trovare qualcuno che capisca cosa sta succedendo per aiutarlo perché il manuale di istruzioni non ha alcun senso.

La semplice risposta è che (la maggior parte) degli ingegneri del software sono molto deboli in termini di statistiche e matematica. Questo è il vantaggio di chiunque voglia competere con loro. Naturalmente le statistiche sono fuori dalla propria zona di comfort se devono scrivere un codice di produzione. Il tipo di ruolo che diventa davvero raro è quello di Data Scientist. È qualcuno che può scrivere codice per accedere e giocare con l'enorme quantità di dati e trovare il valore in essi.


14
LOL a "racconta a tutti quanto è fantastico con la sua precisione del 99%"
Jack Twain,

2
+1 Sono d'accordo con tutto. "[...] Data Scientist. È qualcuno che può scrivere codice per accedere e giocare con l'enorme quantità di dati e trovare valore in essi.". Il che per me suggerisce che dovrebbe rimanere naturalmente raro, dal momento che sembra impossibile per la maggior parte dei mortali affrontare le complesse questioni statistiche e di base, oltre a trasformare qualcosa in un codice di produzione. Spiega anche perché abbiamo chirurghi cardiovascolari, anestesisti, neurologi, infermieri, amministratori ospedalieri ecc. O ingegneri civili, aeronautici, minerari, chimici, meccanici ecc.
Thomas Speidel,

2
Per me, questa non è in realtà una descrizione di ciò che qualcuno ha bisogno di essere un candidato in evidenza ML - più di un bash ML. Sembra che tu stia descrivendo qualcuno che è troppo concentrato per ottenere la "risposta" prima ancora di essere sicuro di quale sia la domanda. Fondamentalmente, la tua persona "tipica ML" è qualcuno che ha scarse capacità di pianificazione e qualcuno che non discute su cosa intendono fare con il "cliente" prima di arare avanti e tornare con "la risposta". Questo non è qualcosa che è aiutato dall'avere buone matematiche / statistiche - è qualcosa che richiede buone capacità comunicative.
probabilityislogic

61

Di cosa si tratta

Solo conoscere le tecniche è simile a conoscere gli animali in uno zoo: puoi nominarli, descriverne le proprietà, forse identificarli in natura.

Comprendere quando usarli, formulare, costruire, testare e distribuire modelli matematici funzionanti all'interno di un'area applicativa evitando le insidie ​​--- queste sono le abilità che distinguono, secondo me.

L'enfasi dovrebbe essere sulla scienza , applicando un approccio sistematico e scientifico ai problemi aziendali, industriali e commerciali. Ma ciò richiede competenze più ampie del data mining e dell'apprendimento automatico, come sostiene Robin Bloor in modo convincente in "A Data Science Rant" .

Quindi cosa si può fare?

Aree di applicazione : scopri le varie aree di applicazione vicine al tuo interesse o a quello del tuo datore di lavoro. L'area è spesso meno importante della comprensione di come è stato costruito il modello e di come è stato utilizzato per aggiungere valore a quell'area. I modelli che hanno successo in un'area possono spesso essere trapiantati e applicati a diverse aree che funzionano in modo simile.

Competizioni : prova il sito di competizione di data mining Kaggle , preferibilmente unendoti a una squadra di altri. (Kaggle: una piattaforma per competizioni di modellazione predittiva. Aziende, governi e ricercatori presentano set di dati e problemi e i migliori scienziati di dati del mondo competono per produrre le migliori soluzioni.)

Fondamenti : Esistono quattro: (1) solide basi statistiche, (2) capacità di programmazione ragionevolmente buone, (3) comprensione di come strutturare query di dati complessi, (4) costruzione di modelli di dati. Se uno è debole, allora è un punto importante da cui iniziare.


Alcune citazioni al riguardo:

`` Ho imparato molto presto la differenza tra conoscere il nome di qualcosa e conoscere qualcosa. Puoi conoscere il nome di un uccello in tutte le lingue del mondo, ma quando hai finito, non saprai assolutamente nulla dell'uccello ... Quindi guardiamo l'uccello e vediamo cosa sta facendo - questo è ciò che conta. '' - Richard Feynman, "The Making of a Scientist", p14 in Cosa ti importa di cosa pensano gli altri, 1988

Tieni a mente:

`` La combinazione di competenze richieste per realizzare questi progetti di scienza delle imprese [data science] raramente risiede in una persona. Qualcuno avrebbe potuto effettivamente acquisire una conoscenza approfondita nelle triple aree di (i) cosa fa l'azienda, (ii) come utilizzare le statistiche e (iii) come gestire i dati e i flussi di dati. In tal caso, potrebbe effettivamente affermare di essere uno scienziato aziendale (noto anche come "scienziato dei dati") in un determinato settore. Ma tali individui sono quasi rari come i denti di gallina. '' - Robin Bloor, A Data Science Rant , ago 2013, Inside Analysis

E infine:

`` La mappa non è il territorio '' - Alfred Korzybski, 1933, Science & Sanity.

I problemi più reali, applicati non sono accessibili esclusivamente dalla `` mappa ''. Per fare cose pratiche con la modellazione matematica, bisogna essere disposti a diventare sporchi con dettagli, sottigliezze ed eccezioni. Nulla può sostituire la conoscenza diretta del territorio.



6
+1. Le soluzioni pronte all'uso raramente funzionano per un problema aziendale specifico della tua organizzazione. Devi personalizzare e migliorare, e per questo devi capire cosa c'è sotto il cofano.
Zhubarb,

4
@Zhubarb - Penso che questo sia solo parzialmente vero. Le soluzioni "out of the box" possono essere utilizzate con grande efficacia, non sempre, e di solito non per completare un'attività dall'inizio alla fine. Il trucco sta nel sapere quando è possibile cavarsela utilizzando soluzioni "out of the box" e quando è necessario un approccio più personalizzato.
probabilityislogic

41

Sono d'accordo con tutto ciò che è stato detto. Ciò che si distingue per me sono:

  1. Quanti pochi "esperti" di machine learning sono veramente interessati all'argomento a cui vogliono applicare ML
  2. Come pochi comprendono veramente la precisione predittiva e le regole di punteggio adeguate
  3. Come pochi comprendono i principi di convalida
  4. Come pochi sanno quando usare una scatola nera rispetto a un modello di regressione tradizionale
  5. Come nessuno degli "esperti" sembra aver mai studiato le funzioni ottimali di decisione o perdita / utilità / costo di Bayes [questa mancanza di comprensione viene visualizzata quasi ogni volta che qualcuno usa la classificazione anziché il rischio previsto]

3
Ti dispiacerebbe elaborare su 4? Non capisco bene cosa intendi

17
Avrei pensato che quell'articolo fosse il più facile da capire. Ecco un esempio: in un particolare campo di studio supponiamo che avessimo precedenti esperienze che la maggior parte delle variabili opera in modo additivo. Il montaggio di un modello di regressione additiva che non presuppone che i predittori operino in modo lineare (ad es. Utilizzando spline di regressione) fornirà un modello statistico interpretabile e utile. L'uso di svm o foreste casuali invece sarà molto difficile da interpretare, non avrà alcun effetto separabile e non predirà meglio del modello di additivo non lineare.
Frank Harrell,

7
Sì, in verità alla superficialità della materia. Nemmeno nel mondo ML, vedo spesso questa tendenza a voler spalare dati grezzi in una scatola magica e avere una meravigliosa intuizione. Ciò che queste persone stanno cercando è un cervello artificiale.
DarenW,

3
+1 per l'articolo 1 in particolare. La prova della mancanza di interesse per il dominio è che l'applicazione della conoscenza del dominio richiederà di sapere come "aprire" la scatola nera e modificarla. Per scatola nera, intendo per gran parte del livello base ML anche quelle tecniche di modellazione statistica di base sono in quella scatola nera. Se l'interesse / abilità non è presente, è molto più difficile applicare la conoscenza del dominio.
Meadowlark Bradsher,

7
@DarenW: La tendenza si riflette anche nel nome: "Machine Learning" con la connotazione che la macchina apprende ... da sola ... spala solo i dati grezzi. Contrasta il nome meno glamour (ma IMO più accurato) scelto da Hastie, Tibshirani, et.al .: "Statistical Learning". Con connotazione diversa, spiegazioni diverse, tutte riferite a principi statistici.
Assad Ebrahim,

11

Ecco un paio di cose per distinguerti dalla massa:

  • Comprendere il dominio o i domini dell'applicazione. Cioè, l'ambiente aziendale o altro contesto.
  • Comprendi il quadro generale. Questo è molto importante! Le persone che studiano l'apprendimento automatico spesso si perdono nei dettagli. Pensa al quadro generale in cui si adatteranno i tuoi modelli ML. Spesso la parte ML è solo un piccolo segmento di un sistema molto più grande. Comprendi l'intero sistema.
  • Studia l'utilità e la teoria delle decisioni e l'inferenza bayesiana, non solo ciò che è ora considerato "i soliti" modelli ML. L'inferenza bayesiana è solo un modo per formalizzare l'idea di portare tutte le informazioni contestuali su un problema. L'utilità e la teoria delle decisioni riguardano il portare valori nell'immagine.

Il messaggio generale che si applica a tutti e tre i punti: guarda il quadro generale, non perderti nei dettagli.


4

L'abilità che distingue un minatore di dati dagli altri è la capacità di interpretare i modelli di apprendimento automatico. La maggior parte costruisce una macchina, segnala l'errore e poi si ferma. Quali sono le relazioni matematiche tra le funzionalità? Gli effetti sono additivi o non additivi o entrambi? Alcune delle funzionalità sono irrilevanti? La macchina è prevista con l'ipotesi nulla che nei dati ci siano solo modelli di probabilità? Il modello si generalizza a dati indipendenti? Cosa significano questi schemi per il problema che si sta studiando? Quali sono le inferenze? Quali sono le intuizioni? Perché un esperto di dominio dovrebbe eccitarsi? La macchina porterà l'esperto di dominio a porre nuove domande e a progettare nuovi esperimenti? Il data mining può comunicare efficacemente il modello e le sue implicazioni al mondo?


8
+1 concordato - anche se ciò che descrivi si chiama statistica.
Thomas Speidel,

4

Vorrei mettere in evidenza l'idea di "competenze trasversali".

  • riconoscere chi è "l'esperto" per il metodo X ed essere in grado di attingere alle loro conoscenze (non dovresti essere in grado o aspettarti di sapere tutto sull'erosione). La capacità e la volontà di collaborare con gli altri.

  • la capacità di tradurre o rappresentare "il mondo reale" con la matematica utilizzata in ML.

  • la capacità di spiegare i tuoi metodi in modi diversi a un pubblico diverso, sapendo quando concentrarsi sui dettagli e quando fare un passo indietro e visualizzare il contesto più ampio.

  • sistemi di pensiero, essere in grado di vedere come il tuo ruolo si nutre in altre aree dell'azienda e come queste aree si inseriscono nel tuo lavoro.

  • un apprezzamento e la comprensione dell'incertezza e avere alcuni metodi strutturati per affrontarla. Essere in grado di affermare chiaramente quali sono i tuoi presupposti.


4

Essere in grado di generalizzare bene

Questa è l'essenza di un buon modello. Ed è l'essenza di ciò che distingue i migliori professionisti dell'arte dell'apprendimento automatico dalla folla.

Comprendere che l'obiettivo è ottimizzare le prestazioni su dati invisibili, non ridurre al minimo la perdita di allenamento. Saper evitare sia l'eccessivo adattamento che il sottoadattamento. Elaborazione di modelli non troppo complessi ma non troppo semplici nella descrizione del problema. Estrarre l'essenza di un set di allenamento, piuttosto che il massimo possibile.

È sorprendente quanto spesso, anche i professionisti con esperienza di apprendimento automatico, non riescano a seguire questo principio. Uno dei motivi è che gli umani non riescono ad apprezzare due grandi differenze di grandezza tra teoria e pratica :

  • Quanto è più ampio lo spazio di tutti i possibili esempi rispetto ai dati di allenamento a portata di mano, anche quando i dati di allenamento sono molto grandi.
  • Quanto è più grande lo "spazio di ipotesi" completo : numero di possibili modelli per un problema, rispetto allo "spazio di soluzione" pratico: tutto ciò a cui puoi pensare e tutto ciò che il tuo software / strumenti sono in grado di rappresentare.

N2N2N

È anche ciò che la maggior parte delle risposte di cui sopra ha detto in modi più specifici e concreti. generalizzare bene è solo il modo più breve che mi viene in mente, per dirla.


2

Vedo che ci sono due parti nella pratica dell'apprendimento automatico

  1. Engineering (che copre tutti gli algoritmi, l'apprendimento di diversi pacchetti, la programmazione).

  2. Curiosità / ragionamento (capacità di porre domande migliori ai dati).

Penso che la "curiosità / ragionamento" sia l'abilità che distingue l'uno dagli altri. Ad esempio, se vedi le classifiche dei completamenti di Kaggle, molte persone potrebbero aver usato algoritmi comuni (simili), ciò che fa la differenza, come si logicamente mettono in discussione i dati e li formulano.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.