La regressione logistica (e più in generale GLM) NON appartiene all'apprendimento automatico! Piuttosto, questi metodi appartengono alla modellazione parametrica .
Sia parametrico che algoritmico modelli (ML) utilizzano i dati, ma in modi diversi . I modelli algoritmici apprendono dai dati come i predittori mappano al predittore, ma non fanno alcuna ipotesi sul processo che ha generato le osservazioni (né qualsiasi altra ipotesi, in realtà). Considerano che le relazioni sottostanti tra le variabili di input e output sono complesse e sconosciute e, quindi, adottano un approccio basato sui dati per capire cosa sta succedendo, piuttosto che imporre un'equazione formale.
D'altro canto, modelli parametrici sono prescritti a priori sulla base di una certa conoscenza del processo studiato, usano i dati per stimare i loro parametri e fanno molte ipotesi non realistiche che raramente valgono in pratica (come l'indipendenza, la varianza uguale e Distribuzione normale degli errori).
Inoltre, i modelli parametrici (come la regressione logistica) sono modelli globali . Non possono acquisire modelli locali nei dati (a differenza dei metodi ML che utilizzano gli alberi come modelli di base, ad esempio RF o Boosted Trees). Vedi questo articolo a pagina 5. Come strategia di riparazione, è possibile utilizzare GLM locale (cioè non parametrico) (vedere ad esempio il pacchetto locfit R).
Spesso, quando sono disponibili poche conoscenze sul fenomeno di base, è meglio adottare un approccio basato sui dati e utilizzare la modellistica algoritmica. Ad esempio, se si utilizza la regressione logistica in un caso in cui l'interazione tra le variabili di input e output non è lineare, il modello sarà chiaramente inadeguato e molti segnali non verranno acquisiti. Tuttavia, quando il processo è ben compreso, i modelli parametrici hanno il vantaggio di fornire un'equazione formale per riassumere tutto, che è potente da un punto di vista teorico.
Per una discussione più dettagliata, leggi questo eccellente documento di Leo Breiman.