Il mio set di dati comprende sequenze vettoriali. Ogni vettore ha 50 dimensioni con valori reali. Il numero di vettori in una sequenza varia da 3-5 a 10-15. In altre parole, la lunghezza di una sequenza non è fissa.
Alcune discrete sequenze (non vettori!) Sono annotate con un'etichetta di classe. Il mio compito è imparare un classificatore che, data una sequenza di vettori, viene calcolata l'etichetta della classe per l'intera sequenza.
Non posso dire l'esatta natura dei dati ma la natura delle sequenze non è temporale. Tuttavia, un vettore non può essere scambiato con un vettore x j senza cambiare l'etichetta ( i ≠ j ). In altre parole, l'ordine dei vettori è importante. I vettori stessi sono comparabili, ad esempio ha senso calcolare un prodotto punto e utilizzare questo valore di somiglianza.
La mia domanda è: quali sono gli strumenti / algoritmi che possono aiutare a classificare tali dati?
AGGIORNAMENTO: I dati hanno una proprietà tale che uno o pochissimi vettori influenzano fortemente l'etichetta della classe.