Non ci sono differenze formali con IMHO che distinguano l'apprendimento automatico e le statistiche a livello fondamentale di adattamento dei modelli ai dati. Potrebbero esserci differenze culturali nella scelta dei modelli, negli obiettivi di adattamento dei modelli ai dati e in alcuni casi estendere le interpretazioni.
Negli esempi tipici a cui riesco a pensare che abbiamo sempre
- una raccolta di modelli per per alcuni set di indici ,Mii∈II
- e per ciascuno un componente sconosciuto (i parametri, possono essere di dimensione infinita) del modello .iθiMi
Adattare ai dati è quasi sempre un problema di ottimizzazione matematica che consiste nel trovare la scelta ottimale del componente sconosciuto per far sì che adatti ai dati misurati da alcune funzioni preferite.MiθiMi
La selezione tra i modelli è meno standard e sono disponibili diverse tecniche. Se l'obiettivo dell'adattamento del modello è puramente predittivo, la selezione del modello viene effettuata nel tentativo di ottenere buone prestazioni predittive, mentre se l'obiettivo primario è interpretare i modelli risultanti, è possibile selezionare modelli più facilmente interpretabili rispetto ad altri modelli anche se il loro il potere predittivo dovrebbe essere peggiore.Mi
La cosiddetta selezione del modello statistico della vecchia scuola si basa su test statistici forse combinati con strategie di selezione graduale, mentre la selezione del modello di apprendimento automatico si concentra in genere sull'errore di generalizzazione atteso, che viene spesso stimato utilizzando la convalida incrociata. Tuttavia, gli sviluppi attuali e la comprensione della selezione del modello sembrano convergere verso un terreno più comune, si veda, ad esempio, Selezione del modello e Media del modello .
Inferenza della causalità dai modelli
Il nocciolo della questione è come possiamo interpretare un modello? Se i dati ottenuti provengono da un esperimento accuratamente progettato e il modello è adeguato, è plausibile che possiamo interpretare l'effetto di una modifica di una variabile nel modello come un effetto causale, e se ripetiamo l'esperimento e interveniamo su questa particolare variabile possiamo aspettarci di osservare l'effetto stimato. Se, tuttavia, i dati sono osservativi, non possiamo aspettarci che gli effetti stimati nel modello corrispondano agli effetti di intervento osservabili. Ciò richiederà ulteriori presupposti indipendentemente dal fatto che il modello sia un "modello di apprendimento automatico" o un "modello statistico classico".
Può darsi che le persone addestrate nell'uso di modelli statistici classici con particolare attenzione alle stime univariate dei parametri e alle interpretazioni sulla dimensione dell'effetto abbiano l'impressione che un'interpretazione causale sia più valida in questo quadro che in un quadro di apprendimento automatico. Direi di no.
L'area dell'inferenza causale nelle statistiche non rimuove realmente il problema, ma rende esplicite le ipotesi su cui si basano le conclusioni causali. Sono indicati come presupposti non verificabili . Il documento Inferenza causale nelle statistiche: una panoramica di Judea Pearl è un buon documento da leggere. Un importante contributo dall'inferenza causale è la raccolta di metodi per la stima degli effetti causali in base a ipotesi in cui vi sono effettivamente confonditori non osservati, il che è altrimenti una delle maggiori preoccupazioni. Vedere la Sezione 3.3 nel documento Pearl sopra. Un esempio più avanzato può essere trovato nel documento Modelli strutturali marginali e inferenza causale in epidemiologia .
È una questione in questione se valgono le assunzioni non verificabili. Sono precisamente non verificabili perché non possiamo testarli usando i dati. Per giustificare le ipotesi sono richiesti altri argomenti.
Come esempio di incontro tra machine learning e inferenza causale, le idee di stima mirata della massima verosimiglianza, come presentate in Targeted Maximum Likelihood Learning di Mark van der Laan e Daniel Rubin, in genere sfruttano le tecniche di machine learning per una stima non parametrica seguita dal "targeting "verso un parametro di interesse. Quest'ultimo potrebbe benissimo essere un parametro con un'interpretazione causale. L'idea in Super Learnerè fare molto affidamento sulle tecniche di apprendimento automatico per la stima dei parametri di interesse. È un punto importante di Mark van der Laan (comunicazione personale) che i modelli statistici classici, semplici e "interpretabili" sono spesso sbagliati, il che porta a stimatori distorti e una valutazione troppo ottimistica dell'incertezza delle stime.