Stiamo studiando l'apprendimento automatico tramite l'apprendimento automatico: una prospettiva probabilistica (Kevin Murphy). Mentre il testo spiega le basi teoriche di ciascun algoritmo, raramente dice in quale caso quale algoritmo è migliore, e quando lo fa, non dice come dire in quale caso mi trovo.
Ad esempio, per la scelta del kernel, mi è stato detto di fare analisi esplorative dei dati per valutare la complessità dei miei dati. In semplici dati bidimensionali, posso tracciare e vedere se un kernel lineare o radiale è appropriato. Ma cosa fare nella dimensione superiore?
Più in generale, cosa significano le persone quando dicono "conoscere i tuoi dati" prima di scegliere un algoritmo? In questo momento posso solo distinguere l'algoritmo di classificazione vs regressione e algoritmo lineare vs non lineare (che non posso controllare).
EDIT: Anche se la mia domanda originale riguarda la regola empirica universale, mi è stato chiesto di fornire maggiori informazioni sul mio problema specifico.
Dati: un pannello con ogni riga che corrisponde a un mese di paese (~ 30.000 righe in totale, che copre ~ 165 paesi per ~ 15 anni).
Risposta: 5 variabili binarie di interesse (cioè se protesta / colpo di stato / crisi, ecc. Accadono in quel mese).
Caratteristiche: ~ 400 variabili (un mix di continue, categoriche, binarie) che descrivono in dettaglio un mucchio di caratteristiche dei 2 mesi precedenti del paese (è possibile creare un ritardo più lungo). Utilizziamo solo variabili ritardate poiché l'obiettivo è la previsione.
Gli esempi includono, tasso di cambio, crescita del PIL (continua), livello di stampa libera (categorica), democrazia, se il vicino ha un conflitto (binario). Nota che molte di queste 400 funzionalità sono variabili ritardate.