Negli studi di associazione su tutto il genoma (GWAS):
- Quali sono i componenti principali?
- Perché sono usati?
- Come vengono calcolati?
- È possibile effettuare uno studio di associazione su tutto il genoma senza utilizzare la PCA?
Negli studi di associazione su tutto il genoma (GWAS):
Risposte:
In questo particolare contesto, PCA viene utilizzato principalmente per tenere conto delle variazioni specifiche della popolazione nella distribuzione degli alleli sugli SNP (o altri marcatori di DNA, sebbene conosca solo il caso SNP) sotto inchiesta. Tale "sottostruttura della popolazione" nasce principalmente come conseguenza delle frequenze variabili di alleli minori negli antenati geneticamente distanti (ad esempio giapponese e nero-africano o europeo-americano). L'idea generale è ben spiegata in Population Structure and Eigenanalysis , di Patterson et al. ( PLoS Genetics 2006, 2 (12)), o il numero speciale di Lancet sull'epidemiologia genetica (2005, 366; la maggior parte degli articoli può essere trovata sul web, a cominciare da Cordell & Clayton, Genetic Association Studies ).
La costruzione degli assi principali segue l'approccio classico alla PCA, che viene applicato alla matrice in scala (individui per SNP) dei genotipi osservati (AA, AB, BB; diciamo che B è l'allele minore in tutti i casi), con l'eccezione che potrebbe essere applicata un'ulteriore normalizzazione per tenere conto della deriva della popolazione. Si presume che la frequenza dell'allele minore (prendendo valore in {0,1,2}) possa essere considerata numerica, ovvero lavoriamo secondo un modello additivo (chiamato anche dosaggio allelico) o qualsiasi equivalente che avrebbe senso . Poiché i PC ortogonali successivi rappresenteranno la massima varianza, ciò fornisce un modo per evidenziare gruppi di individui diversi a livello di frequenza minore dell'allele. Il software utilizzato per questo è noto come Eigenstrat . È disponibile anche inegscore()
funzione dal pacchetto GenABEL R (vedi anche GenABEL.org ). Vale la pena notare che sono stati proposti altri metodi per rilevare la sottostruttura della popolazione, in particolare la ricostruzione di cluster basata su modelli (vedi riferimenti alla fine). Ulteriori informazioni possono essere trovate sfogliando il progetto Hapmap e le esercitazioni disponibili provenienti dal progetto Bioconduttore . (Cerca i simpatici tutorial di Vince J Carey o David Clayton su Google).
Stratificazione della popolazione nella guida in linea.
Considerando che l'autovalisi consente di scoprire alcune strutture a livello degli individui, possiamo usare queste informazioni quando proviamo a spiegare le variazioni osservate in un dato fenotipo (o qualsiasi distribuzione che potrebbe essere definita secondo un criterio binario, ad esempio malattia o controllo dei casi situazione). In particolare, possiamo adattare la nostra analisi con quei PC (cioè i punteggi dei fattori degli individui), come illustrato nell'analisi delle componenti principali corregge la stratificazione negli studi di associazione a livello del genoma , di Price et al. ( Nature Genetics 2006, 38 (8)) e successivi lavori (c'era una bella foto che mostrava gli assi della variazione genetica in Europa nella geografia dei geni dei geni in Europa; Nature 2008; Fig 1A riprodotta di seguito). Si noti inoltre che un'altra soluzione è eseguire un'analisi stratificata (includendo l'etnia in un GLM) , ad esempio prontamente disponibile nel pacchetto snpMatrix .
Riferimenti