Nuovo modo rivoluzionario di data mining?


21

Il seguente estratto è tratto dall'Hedge Fund Market Wizzards di Schwager (maggio 2012), un'intervista al gestore di hedge fund di successo costantemente Jaffray Woodriff:

Alla domanda: "Quali sono alcuni dei peggiori errori che le persone commettono nel data mining?":

Molte persone pensano di stare bene perché usano i dati all'interno del campione per la formazione e i dati fuori campione per i test. Quindi ordinano i modelli in base al modo in cui sono stati eseguiti sui dati del campione e scelgono i migliori da testare sui dati del campione. La tendenza umana è quella di prendere i modelli che continuano a fare bene nei dati fuori campione e scegliere quei modelli per il trading. Questo tipo di processo trasforma semplicemente i dati fuori campione in parte dei dati di addestramento perché seleziona i modelli che hanno funzionato meglio nel periodo fuori campione. È uno degli errori più comuni che le persone commettono e uno dei motivi per cui il data mining come viene generalmente applicato produce risultati terribili.

L'intervistatore chiede: "Cosa dovresti fare invece?":

Puoi cercare modelli in cui, in media, tutti i modelli fuori campione continuano a funzionare bene. Sai che stai andando bene se la media per i modelli fuori campione è una percentuale significativa del punteggio all'interno del campione. In generale, si sta davvero arrivando da qualche parte se i risultati fuori dal campione sono più del 50 percento del campione. Il modello di business di QIM non avrebbe mai funzionato se SAS e IBM stessero costruendo un ottimo software di modellazione predittiva.


Le mie domande
Ha senso? Che cosa intende? Hai un indizio - o forse persino un nome per il metodo proposto e alcuni riferimenti? O questo ragazzo ha trovato il Santo Graal che nessun altro capisce? Dice anche in questa intervista che il suo metodo potrebbe potenzialmente rivoluzionare la scienza ...


4
Non sta semplicemente discutendo gli errori di un singolo split-sample (treno e validazione) e sostenendo un processo di validazione incrociata nidificata?
B_Miner

12
Sarei diffidente nei confronti di chiunque sostenga una visione profonda che rivoluzionerebbe la "scienza".
cardinale il

2
I gestori di hedge fund che rivendicano un "approccio di modellizzazione migliore" e fanno un po 'di cazzate parlando della concorrenza? Niente di nuovo lì.
zbicyclist il

2
wow, in che modo questa domanda sta ottenendo così tanti voti? La previsione fuori campione è un problema discusso il primo giorno di qualsiasi corso introduttivo di apprendimento automatico. Ci sono quelli che non affrontano correttamente le previsioni fuori campione, ma certamente nessuno ha il minimo indizio sul compito della previsione.
user4733

Il trading è ovviamente un problema di serie temporale, quello che sta dicendo sembra essere che la convalida incrociata (ovviamente usando dati noti) non può risolvere il problema di cambiare la struttura con il tempo !, quindi non è un santo graal. Ma ciò che sta effettivamente facendo non può essere dedotto.
kjetil b halvorsen,

Risposte:


6

Questo ha senso ? In parte.

Che cosa intende? Per favore, chiediglielo.

Hai un indizio - o forse persino un nome per il metodo proposto e alcuni riferimenti?

Convalida incrociata. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

O questo ragazzo ha trovato il Santo Graal che nessun altro capisce? No.

Dice anche in questa intervista che il suo metodo potrebbe potenzialmente rivoluzionare la scienza ... Forse si è dimenticato di includere i riferimenti per quella dichiarazione ...


2
Beh, almeno sta sottolineando un vero problema ...

8

Non sono sicuro se ci saranno altre risposte "vaghe", ma ecco la mia.

La convalida incrociata non è in alcun modo "nuova". Inoltre, la convalida incrociata non viene utilizzata quando vengono trovate soluzioni analitiche. Ad esempio, non usi la convalida incrociata per stimare i beta, usi OLS o IRLS o qualche altra soluzione "ottimale".

Quello che vedo come una lacuna palesemente evidente nella citazione non fa riferimento a nessuna idea di controllare effettivamente i modelli "migliori" per vedere se hanno senso. In generale, un buon modello ha senso a un livello intuitivo. Sembra che l'affermazione sia che CV è un proiettile d'argento per tutti i problemi di previsione. Inoltre non si può parlare di impostazione al livello superiore della struttura del modello: utilizziamo SVM , Regressione Trees , Boosting , Bagging , OLS , GLMS , GLMNS. Regolarizziamo le variabili? Se é cosi, come? Raggruppiamo le variabili? Vogliamo solidità alla scarsità? Abbiamo valori anomali? Dovremmo modellare i dati nel loro insieme o in pezzi? Ci sono troppi approcci da decidere sulla base del CV .

E un altro aspetto importante è quali sistemi di computer sono disponibili? Come vengono archiviati ed elaborati i dati? C'è mancanza - come possiamo spiegarlo?

Ed ecco il grande: abbiamo dati sufficienti per fare buone previsioni? Ci sono variabili conosciute che non abbiamo nel nostro set di dati? I nostri dati sono rappresentativi di qualunque cosa stiamo cercando di prevedere?

KK-2

npnpnp


9
Bel rant. Sarebbe stato molto più facile da leggere se avessi usato i cappellini occasionali ...
MånsT

4

La sua spiegazione su un errore comune nel data mining sembra ragionevole. La sua spiegazione di ciò che fa non ha alcun senso. Che cosa intende dire quando dice "In generale, si sta davvero arrivando da qualche parte se i risultati fuori campione sono più del 50 percento del campione". Quindi SAS e IBM, che non parlano male, non lo rendono neanche molto intelligente. Le persone possono avere successo sul mercato senza comprendere le statistiche e parte del successo è la fortuna. È sbagliato trattare gli uomini d'affari di successo come se fossero dei guru delle previsioni.


1
Non è abbastanza chiaro cosa si intendesse con la frase citata? A seconda di come devono essere utilizzati i modelli, ciò che dice di fare potrebbe avere molto senso. Ad esempio, il principale "da asporto" della sfida Netflix sembra essere il potere del "modello blending" fintanto che si ha ben poco bisogno di interpretabilità. In tal caso, alcune prestazioni "medie" fuori campione dei modelli in esame possono essere completamente rilevanti.
cardinale il

@cardinale: potresti dare una risposta a questi pensieri molto interessanti? Sarebbe fantastico, grazie!
vonjd,

2
@cardinal Forse ti è chiaro, ma poi spiega la frase "Stai davvero arrivando da qualche parte se i risultati fuori campione sono più del 50 percento del campione". Se stai dicendo che la media di emsemble su tutti i modelli può essere efficace, ovviamente posso essere d'accordo. È stato dimostrato che il potenziamento funziona bene in molte applicazioni. Ma non vedo da dove provengano le osservazioni di Woodriff.
Michael R. Chernick,

2
Ovviamente non conosco i dettagli di ciò che Mr. Woodriff sta sostenendo, ma la mia interpretazione di questo basata sull'estratto è qualcosa che ha l'effetto di: "[Nelle mie applicazioni] se la prestazione fuori campione media [usando qualunque metrica Ritengo rilevante] sia almeno la metà delle prestazioni nel campione dopo aver adattato il modello, quindi è significativo per la mia applicazione. " Sono un matematico / statistico, quindi ho bisogno di avvertimenti. Se fossi un gestore di hedge fund in cerca di qualche riconoscimento esterno, potrei essere più grandioso e assoluto nelle mie osservazioni.
cardinale il

1
@cardinal Quindi prendi il tasso di errore come misura delle prestazioni, quindi interpreti Woodriff per dire che se il tasso di errore nel campione è del 5% e il tasso di errore fuori campione è del 10%, allora il metodo è buono? Perché non guardare le prestazioni fuori campione per decidere? Suppongo che il rapporto tra prestazioni fuori campione e prestazioni nel campione dica qualcosa su quanto sia affidabile / inaffidabile la stima del tasso di errore nel campione ma non vedo che entra nella valutazione delle prestazioni del classificatore. Continuo a non vedere dove il modello si fonda nelle sue osservazioni.
Michael R. Chernick,

4

Puoi cercare modelli in cui, in media, tutti i modelli fuori campione continuano a funzionare bene.

La mia comprensione dei modelli di parole qui, è che intende condizioni di mercato diverse. Un approccio ingenuo analizzerà tutti i dati disponibili (sappiamo tutti che è meglio un maggior numero di dati), per formare il modello di adattamento della curva migliore, quindi eseguirlo su tutti i dati e scambiarlo continuamente.

I gestori di hedge fund e i trader algoritmici di maggior successo utilizzano le loro conoscenze di mercato. A titolo di esempio concreto, la prima mezz'ora di una sessione di trading può essere più volatile. Quindi proveranno i modelli su tutti i loro dati, ma solo per quella prima mezz'ora e su tutti i loro dati, ma escludendo quella prima mezz'ora. Potrebbero scoprire che due dei loro modelli vanno bene nella prima mezz'ora, ma otto di loro perdono denaro. Mentre, quando escludono quella prima mezz'ora, sette dei loro modelli fanno soldi, tre perdono denaro.

Ma, piuttosto che prendere quei due modelli vincenti e usarli nella prima mezz'ora di trading, dicono: quello è un brutto momento della giornata per il trading algoritmico, e non faremo trading. Il resto della giornata useranno i loro sette modelli. Cioè sembra che il mercato sia più facile da prevedere con l'apprendimento automatico a quei tempi, quindi quei modelli hanno maggiori possibilità di essere affidabili in futuro. (L'ora del giorno non è l'unico modello; altri sono di solito correlati a eventi di cronaca, ad esempio il mercato è più volatile prima che vengano annunciate le cifre economiche chiave.)

Questa è la mia interpretazione di ciò che sta dicendo; potrebbe essere totalmente sbagliato, ma spero che sia ancora un utile spunto di riflessione per qualcuno.


2

Come professionista finanziario conosco abbastanza contesto che la dichiarazione non presenta alcuna ambiguità. Le serie temporali finanziarie sono spesso caratterizzate da cambiamenti di regime, rotture strutturali e deriva dei concetti, quindi la convalida incrociata come praticata in altri settori non ha altrettanto successo nelle applicazioni finanziarie. Nella seconda parte si riferisce a una metrica finanziaria, ovvero ritorno sull'investimento sul rapporto Sharpe (rendimento nel numeratore), non MSE o altra funzione di perdita. Se la strategia all'interno del campione produce un rendimento del 10%, quindi nel trading reale potrebbe produrre in modo abbastanza realistico solo il 5%. La parte "rivoluzionaria" riguarda sicuramente il suo approccio di analisi proprietario, non le virgolette.


Una domanda a onlyvix: conosci qualche lavoro che utilizza la tua metrica finanziaria come strumento per l'ottimizzazione dei parametri, cioè ottimizzando direttamente i parametri massimizzando quella metrica, anziché utilizzare la massima probabilità?
kjetil b halvorsen,

@kbh non è la mia metrica finanziaria - l'ottimizzazione per il rapporto di sharpe è molto comune. Un esempio nella parte superiore della mia testa ssrn.com/abstract=962461 - non viene sviluppato alcun modello statistico esatto, ma le regole di trading create per (in termini molto generali) massimizzare i rendimenti e minimizzare il rischio.
onlyvix.blogspot.com
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.