Sfondo biologico
Nel tempo, alcune specie di piante tendono a duplicare i loro interi genomi, ottenendo una copia aggiuntiva di ciascun gene. A causa dell'instabilità di questa configurazione, molti di questi geni vengono quindi eliminati e il genoma si riorganizza e si stabilizza, pronto per duplicare nuovamente. Questi eventi di duplicazione sono associati a eventi di speciazione e di invasione e la teoria è che la duplicazione aiuta le piante ad adattarsi più rapidamente ai loro nuovi ambienti.
Il Lupinus, un genere di pianta in fiore, invase le Ande in uno degli eventi di speciazione più rapidi mai individuati, e inoltre sembra che abbia più copie duplicate nel suo genoma rispetto al genere più strettamente correlato, Baptisia.
E ora il problema matematico:
I genomi di un membro del Lupinus e di un membro della Baptisia sono stati sequenziati, fornendo dati grezzi su circa 25.000 geni in ciascuna specie. Interrogando su un database di geni di funzione nota, ora ho una "migliore ipotesi" per quali funzioni potrebbe svolgere quel gene - quindi, ad esempio, Gene1298 potrebbe essere associato a "metabolismo del fruttosio, risposta allo stress salino, risposta allo stress da freddo". Voglio sapere, se si è verificato un evento di duplicazione tra Baptisia e Lupinus, se la perdita genica è avvenuta in modo casuale o se i geni che svolgono particolari funzioni avevano maggiori probabilità di essere conservati o eliminati.
Ho uno script che produrrà una tabella come quella mostrata di seguito. L * è un conteggio di tutti i geni del Lupinus associati alla funzione. L 1+ è un conteggio dei geni del lupino associati alla funzione in cui esiste almeno una copia duplicata. Posso ottenerlo per produrre L 2+, L 3+ ecc., Sebbene L 1+ sia un gruppo molto più affidabile di L 2+ a causa del processo di sequenziamento.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Quello che vorrei fare è verificare, per ciascuna funzione genica, se ci sono più o meno geni con duplicati di quanto ci si potrebbe aspettare puramente per caso in Lupinus e Baptisia e se il Lupinus differisce da Baptisia nel rapporto tra osservato e atteso.
La cosa migliore che ho finora
Precedenti studi su diverse specie hanno utilizzato l'analisi di arricchimento, con Fisher Exact Test e correzione FDR per campionamenti multipli, per eseguire un test di contingenza su ogni riga.
Sarebbe bello migliorarlo; Non sono sicuro che questo sembra il modo migliore per farlo.
Glen_b ha suggerito di utilizzare un GLM per analizzare i dati; Ho giocato con i GLM in JMP8, il che è stato interessante, ma ammetterò di non capirli davvero.
Detto questo, sto cercando di usare R invece ora.
Per cosa sto usando questo?
Inizialmente questo doveva essere parte di un breve progetto di ricerca che sto facendo all'università, ma ora si è trasformato in un enorme progetto di annotazione del genoma. Perché? Perché la bioinformatica è fantastica. Essere in grado di prendere una serie di A, T, C e G e usarla per dedurre informazioni sugli eventi accaduti milioni di anni fa è sorprendente.
Inutile dire che non proverò a presentare una risposta gentilmente fornita come opera mia. Sarei felice di includere un riconoscimento nel documento se uso un metodo suggerito qui nel lavoro presentato.