Il test statistico serve a fare deduzione dai dati, ti dice come le cose sono correlate. Il risultato è qualcosa che ha un significato nel mondo reale. Ad esempio, come il fumo è associato al cancro del polmone, sia in termini di direzione che di grandezza. Non ti dice ancora perché sono successe le cose. Per rispondere al motivo per cui sono successe le cose, dobbiamo considerare anche l'interrelazione con altre variabili e apportare le opportune modifiche (vedi Pearl, J. (2003) CAUSALITÀ: MODELLI, RAGIONAMENTO E INFERENZA).
L'apprendimento supervisionato serve a fare previsioni, ti dice cosa accadrà. Ad esempio, dato lo stato di fumo di una persona, possiamo prevedere se avrà un cancro ai polmoni. In casi semplici, ti dice ancora "come", ad esempio osservando l'interruzione dello stato di fumo identificato dall'algoritmo. Ma i modelli più complessi sono più difficili o impossibili da interpretare (apprendimento profondo / potenziamento con molte funzionalità).
L'apprendimento senza supervisione viene spesso utilizzato per facilitare i due precedenti.
- Per i test statistici, scoprendo alcuni sottogruppi sottostanti sconosciuti dei dati (clustering), possiamo dedurre l'eterogeneità nelle associazioni tra variabili. Ad esempio, il fumo aumenta le probabilità di avere un cancro ai polmoni per il sottogruppo A ma non per il sottogruppo B.
- Per l'apprendimento supervisionato, possiamo creare nuove funzionalità per migliorare l'accuratezza e la solidità della previsione. Ad esempio identificando i sottogruppi (raggruppamento) o la combinazione di caratteristiche (riduzione della dimensione) associate a probabilità di avere un cancro ai polmoni.
Quando il numero di caratteristiche / variabili aumenta, la differenza tra test statistici e apprendimento supervisionato diventa più sostanziale. I test statistici potrebbero non trarne necessariamente beneficio, dipende ad esempio se si desidera fare un'inferenza causale controllando altri fattori o identificando l'eterogeneità nelle associazioni come menzionato sopra. L'apprendimento supervisionato funzionerà meglio se le funzionalità sono rilevanti e diventerà più simile a una blackbox.
Quando il numero di campioni aumenta, possiamo ottenere risultati più precisi per i test statistici, risultati più accurati per l'apprendimento supervisionato e risultati più solidi per l'apprendimento non supervisionato. Ma questo dipende dalla qualità dei dati. Dati di cattiva qualità possono introdurre distorsioni o disturbi nei risultati.
A volte vogliamo sapere "come" e "perché" per informare le azioni interventistiche, ad esempio identificando che il fumo provoca il cancro ai polmoni, la politica può essere presa per affrontarlo. A volte vogliamo sapere "cosa" per informare il processo decisionale, ad esempio scoprire chi è probabile che abbia il cancro ai polmoni e dare loro trattamenti precoci. C'è un numero speciale pubblicato su Science sulla previsione e i suoi limiti ( http://science.sciencemag.org/content/355/6324/468). "Il successo sembra essere raggiunto in modo più coerente quando le domande vengono affrontate in sforzi multidisciplinari che uniscono la comprensione umana del contesto con la capacità algoritmica di gestire terabyte di dati." Secondo me, ad esempio, le conoscenze scoperte utilizzando il test di ipotesi possono aiutare l'apprendimento supervisionato informandoci quali dati / caratteristiche dovremmo raccogliere in primo luogo. D'altra parte, l'apprendimento supervisionato può aiutare a generare ipotesi informando quali variabili