Quindi ho letto alcuni post sul perché il binning dovrebbe sempre essere evitato. Un riferimento popolare per tale affermazione è questo link .
La fuga principale è che i punti di binning (o punti di interruzione) sono piuttosto arbitrari così come la conseguente perdita di informazioni e che le spline dovrebbero essere preferite.
Tuttavia, sto attualmente lavorando con l'API di Spotify, che ha un sacco di continue misure di confidenza per molte delle loro funzionalità.
Guardando una caratteristica, "strumentalità", i riferimenti affermano:
Prevede se una traccia non contiene voci. I suoni "Ooh" e "aah" sono considerati strumentali in questo contesto. Le tracce di parole rap o vocali sono chiaramente "vocali". Più il valore di strumentalità è vicino a 1,0, maggiore è la probabilità che la traccia non contenga alcun contenuto vocale. I valori superiori a 0,5 intendono rappresentare tracce strumentali , ma la confidenza è maggiore quando il valore si avvicina a 1.0.
Data la distribuzione molto distorta dei miei dati (circa il 90% dei campioni è appena sopra 0, ho trovato sensato trasformare questa funzione in due caratteristiche categoriche: "strumentale" (tutti i campioni con un valore superiore a 0,5) e "non_strumentale" "(per tutti i campioni con un valore inferiore a 0,5).
È sbagliato? E quale sarebbe stata l'alternativa, quando quasi tutti i miei dati (continui) ruotano attorno a un singolo valore? Da quello che ho capito delle spline, non funzionerebbero nemmeno con i problemi di classificazione (cosa sto facendo).