Ho appena completato l'apprendimento automatico per il corso R su cognitiveclass.ai e ho iniziato a sperimentare con foreste casuali.
Ho creato un modello usando la libreria "randomForest" in R. Il modello classifica per due classi, buono e cattivo.
So che quando un modello è sovralimentato, si comporta bene con i dati del proprio set di training ma male con i dati fuori campione.
Per addestrare e testare il mio modello ho mischiato e diviso il set di dati completo in 70% per l'allenamento e 30% per i test.
La mia domanda: sto ottenendo una precisione del 100% dalla previsione fatta sul set di test. È male? Sembra troppo bello per essere vero.
L'obiettivo è il riconoscimento della forma d'onda su quattro l'uno sull'altro a seconda delle forme d'onda. Le caratteristiche del set di dati sono i risultati di costo dell'analisi Dynamic Time Warping delle forme d'onda con la loro forma d'onda target.