Il seguente estratto è tratto dall'Hedge Fund Market Wizzards di Schwager (maggio 2012), un'intervista al gestore di hedge fund di successo costantemente Jaffray Woodriff:
Alla domanda: "Quali sono alcuni dei peggiori errori che le persone commettono nel data mining?":
Molte persone pensano di stare bene perché usano i dati all'interno del campione per la formazione e i dati fuori campione per i test. Quindi ordinano i modelli in base al modo in cui sono stati eseguiti sui dati del campione e scelgono i migliori da testare sui dati del campione. La tendenza umana è quella di prendere i modelli che continuano a fare bene nei dati fuori campione e scegliere quei modelli per il trading. Questo tipo di processo trasforma semplicemente i dati fuori campione in parte dei dati di addestramento perché seleziona i modelli che hanno funzionato meglio nel periodo fuori campione. È uno degli errori più comuni che le persone commettono e uno dei motivi per cui il data mining come viene generalmente applicato produce risultati terribili.
L'intervistatore chiede: "Cosa dovresti fare invece?":
Puoi cercare modelli in cui, in media, tutti i modelli fuori campione continuano a funzionare bene. Sai che stai andando bene se la media per i modelli fuori campione è una percentuale significativa del punteggio all'interno del campione. In generale, si sta davvero arrivando da qualche parte se i risultati fuori dal campione sono più del 50 percento del campione. Il modello di business di QIM non avrebbe mai funzionato se SAS e IBM stessero costruendo un ottimo software di modellazione predittiva.
Le mie domande
Ha senso? Che cosa intende? Hai un indizio - o forse persino un nome per il metodo proposto e alcuni riferimenti? O questo ragazzo ha trovato il Santo Graal che nessun altro capisce? Dice anche in questa intervista che il suo metodo potrebbe potenzialmente rivoluzionare la scienza ...