Sto lavorando a un algoritmo che rileva un vettore del punto dati più recente da una serie di flussi di sensori e confronta la distanza euclidea con i vettori precedenti. Il problema è che i diversi flussi di dati provengono da sensori completamente diversi, quindi prendere una semplice distanza euclidea enfatizzerà notevolmente alcuni valori. Chiaramente, ho bisogno di un modo per normalizzare i dati. Tuttavia, poiché l'algoritmo è progettato per essere eseguito in tempo reale, non posso utilizzare alcuna informazione su qualsiasi flusso di dati nel suo insieme nella normalizzazione. Finora ho appena tenuto traccia del valore più grande visto per ciascun sensore nella fase di avvio (i primi 500 vettori di dati) e quindi dividendo tutti i dati futuri da quel sensore per quel valore. Funziona sorprendentemente bene, ma sembra molto elegante.
Non ho avuto molta fortuna a trovare un algoritmo preesistente per questo, ma forse non sto cercando nei posti giusti. Qualcuno ne conosce uno? O hai qualche idea? Ho visto un suggerimento per usare una media corrente (probabilmente calcolata dall'algoritmo di Wellford), ma che se lo avessi fatto, più letture dello stesso valore non sarebbero state identiche, il che sembra un problema piuttosto grande, a meno che mi manca qualcosa. Ogni pensiero è apprezzato! Grazie!