Fondamentalmente, ci sono due modi comuni per imparare contro enormi set di dati (quando ti trovi di fronte a restrizioni di tempo / spazio):
- Barare :): utilizzare solo un sottoinsieme "gestibile" per l'allenamento. La perdita di accuratezza può essere trascurabile a causa della legge dei rendimenti decrescenti: le prestazioni predittive del modello spesso si appiattiscono molto prima che tutti i dati di addestramento vengano incorporati in esso.
- Elaborazione parallela: dividi il problema in parti più piccole e risolvi ciascuna su una macchina / processore separata. Tuttavia, è necessaria una versione parallela dell'algoritmo, ma la buona notizia è che molti algoritmi comuni sono naturalmente paralleli: il più vicino, gli alberi delle decisioni, ecc.
Ci sono altri metodi? C'è qualche regola empirica quando usarli? Quali sono gli svantaggi di ciascun approccio?