Ho un grosso problema con un grande set di dati (ad esempio 50 milioni di righe e 200 colonne). Il set di dati è costituito da circa 100 colonne numeriche e 100 colonne categoriche e una colonna di risposta che rappresenta un problema di classe binaria. La cardinalità di ciascuna delle colonne categoriali è inferiore a 50.
Voglio sapere a priori se dovrei optare per metodi di apprendimento profondo o metodi basati su un insieme di alberi (ad esempio aumento del gradiente, adaboost o foreste casuali). Esistono analisi esplorative dei dati o altre tecniche che possono aiutarmi a decidere un metodo rispetto all'altro?