Sto esaminando alcuni dati di copertura genomica che è fondamentalmente un lungo elenco (alcuni milioni di valori) di numeri interi, ognuno dei quali dice quanto bene (o "in profondità") sia coperta questa posizione nel genoma.
Vorrei cercare "valli" in questi dati, cioè regioni che sono significativamente "più basse" del loro ambiente circostante.
Nota che la dimensione delle valli che sto cercando può variare da 50 basi a poche migliaia.
Che tipo di paradigmi consiglieresti di usare per trovare quelle valli?
AGGIORNARE
Alcuni esempi grafici per i dati:
AGGIORNAMENTO 2
Definire cos'è una valle è ovviamente una delle domande con cui sto lottando. Questi sono ovvi per me:
ma ci sono alcune situazioni più complesse. In generale, ci sono 3 criteri che prendo in considerazione: 1. La copertura (media? Massima?) Nella finestra rispetto alla media globale. 2. La (...) copertura nella finestra rispetto all'ambiente circostante. 3. Quanto è grande la finestra: se vedo una copertura molto bassa per un breve periodo è interessante, se vedo una copertura molto bassa per un lungo periodo è anche interessante, se vedo una copertura leggermente bassa per un breve periodo non è davvero interessante , ma se vedo una copertura leggermente bassa per un lungo arco di tempo, lo è ... Quindi è una combinazione della lunghezza del sapn e della sua copertura. Più è lungo, più alto lascio che la copertura sia e la considero ancora una valle.
Grazie,
Dave