Ho analizzato un set di dati di ~ 400k record e 9 variabili La variabile dipendente è binaria. Ho adattato una regressione logistica, un albero di regressione, una foresta casuale e un albero potenziato con gradiente. Tutti danno virtuale identica bontà dei numeri di adattamento quando li convalido su un altro set di dati.
Perché è così? Immagino che sia perché le mie osservazioni sul rapporto variabile sono così alte. Se questo è corretto, da quale osservazione al rapporto variabile inizieranno modelli diversi a dare risultati diversi?