Ho scoperto che alcuni studi hanno dimostrato che le prestazioni dei modelli predittivi dipendono più dall'esperienza dell'analista di dati con il metodo scelto che dalla scelta del metodo.
In altre parole, l'affermazione è che è più importante che l'analista di dati abbia familiarità con il metodo scelto piuttosto che quanto "appropriato" il metodo sembrerebbe per il problema da un punto di vista più teorico.
Ciò è stato menzionato nel contesto della chemiometria, che comporta in genere problemi di molti variati (100s - 1000s), collinearità multipla e, naturalmente, troppo pochi campioni. La previsione potrebbe essere stata una classificazione o regressione.
La mia esperienza personale suggerisce che questo è plausibile , ma è stato menzionato uno studio (ho chiesto alla persona che lo ha menzionato via e-mail dopo una ricerca rapida ma senza successo, ma non ho mai ricevuto alcuna risposta). Tuttavia, anche con una ricerca più elaborata, non sono stato in grado di rintracciare alcun documento.
Qualcuno è a conoscenza di tali risultati? In caso contrario, cosa dice l'esperienza personale di Big Guys qui?