Negli studi di associazione a livello del genoma, quali sono i componenti principali?


20

Negli studi di associazione su tutto il genoma (GWAS):

  1. Quali sono i componenti principali?
  2. Perché sono usati?
  3. Come vengono calcolati?
  4. È possibile effettuare uno studio di associazione su tutto il genoma senza utilizzare la PCA?

1
Prima di porre queste domande, hai cercato "PCA" nel sito o hai esplorato il tag "PCA"? La maggior parte delle tue domande hanno già una risposta lì.
whuber

1
@whuber Penso che l'OP stia cercando l'uso del PCA come modo per rendere conto e adattarsi alla stratificazione della popolazione quando si modella un dato risultato (fenotipo continuo o studi caso / controllo) e marcatori del DNA (SNP). Ho fornito un riferimento qui: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
chl

1
GWAS può certamente essere fatto senza componenti principali. In assenza di stratificazione della popolazione, tutto ciò di cui hai bisogno sono migliaia di test o migliaia di test chi-quadrati. t
onestop

@onestop (+1) Considererò che hai risposto alla seconda domanda, che non ho nemmeno preso in considerazione nella mia risposta.
chl

@onestop, e se solo stratificare per genere / razza? puoi approfondire la tua risposta per favore?
suprvisr,

Risposte:


27

In questo particolare contesto, PCA viene utilizzato principalmente per tenere conto delle variazioni specifiche della popolazione nella distribuzione degli alleli sugli SNP (o altri marcatori di DNA, sebbene conosca solo il caso SNP) sotto inchiesta. Tale "sottostruttura della popolazione" nasce principalmente come conseguenza delle frequenze variabili di alleli minori negli antenati geneticamente distanti (ad esempio giapponese e nero-africano o europeo-americano). L'idea generale è ben spiegata in Population Structure and Eigenanalysis , di Patterson et al. ( PLoS Genetics 2006, 2 (12)), o il numero speciale di Lancet sull'epidemiologia genetica (2005, 366; la maggior parte degli articoli può essere trovata sul web, a cominciare da Cordell & Clayton, Genetic Association Studies ).

La costruzione degli assi principali segue l'approccio classico alla PCA, che viene applicato alla matrice in scala (individui per SNP) dei genotipi osservati (AA, AB, BB; diciamo che B è l'allele minore in tutti i casi), con l'eccezione che potrebbe essere applicata un'ulteriore normalizzazione per tenere conto della deriva della popolazione. Si presume che la frequenza dell'allele minore (prendendo valore in {0,1,2}) possa essere considerata numerica, ovvero lavoriamo secondo un modello additivo (chiamato anche dosaggio allelico) o qualsiasi equivalente che avrebbe senso . Poiché i PC ortogonali successivi rappresenteranno la massima varianza, ciò fornisce un modo per evidenziare gruppi di individui diversi a livello di frequenza minore dell'allele. Il software utilizzato per questo è noto come Eigenstrat . È disponibile anche inegscore()funzione dal pacchetto GenABEL R (vedi anche GenABEL.org ). Vale la pena notare che sono stati proposti altri metodi per rilevare la sottostruttura della popolazione, in particolare la ricostruzione di cluster basata su modelli (vedi riferimenti alla fine). Ulteriori informazioni possono essere trovate sfogliando il progetto Hapmap e le esercitazioni disponibili provenienti dal progetto Bioconduttore . (Cerca i simpatici tutorial di Vince J Carey o David Clayton su Google).

±6Stratificazione della popolazione nella guida in linea.

Considerando che l'autovalisi consente di scoprire alcune strutture a livello degli individui, possiamo usare queste informazioni quando proviamo a spiegare le variazioni osservate in un dato fenotipo (o qualsiasi distribuzione che potrebbe essere definita secondo un criterio binario, ad esempio malattia o controllo dei casi situazione). In particolare, possiamo adattare la nostra analisi con quei PC (cioè i punteggi dei fattori degli individui), come illustrato nell'analisi delle componenti principali corregge la stratificazione negli studi di associazione a livello del genoma , di Price et al. ( Nature Genetics 2006, 38 (8)) e successivi lavori (c'era una bella foto che mostrava gli assi della variazione genetica in Europa nella geografia dei geni dei geni in Europa; Nature 2008; Fig 1A riprodotta di seguito). Si noti inoltre che un'altra soluzione è eseguire un'analisi stratificata (includendo l'etnia in un GLM) , ad esempio prontamente disponibile nel pacchetto snpMatrix .

i geni rispecchiano la geografia in Europa

Riferimenti

  1. Daniel Falush, Matthew Stephens e Jonathan K Pritchard (2003). Inferenza della struttura della popolazione usando dati di genotipo multilocus: loci collegati e frequenze alleliche correlate . Genetica , 164 (4): 1567-1587.
  2. B Devlin e K Roeder (1999). Controllo genomico per studi di associazione . Biometria , 55 (4): 997–1004.
  3. JK Pritchard, M Stephens e P Donnelly (2000). Inferenza della struttura della popolazione usando dati di genotipo multilocus . Genetica , 155 (2): 945-959.
  4. Gang Zheng, Boris Freidlin, Zhaohai Li e Joseph L Gastwirth (2005). Controllo genomico per studi di associazione sotto vari modelli genetici . Biometria , 61 (1): 186–92.
  5. Chao Tian, ​​Peter K. Gregersen e Michael F. Seldin1 (2008). Contabilizzazione degli antenati: sottostruttura della popolazione e studi di associazione su tutto il genoma . Genetica molecolare umana , 17 (R2): R143-R150.
  6. Kai Yu, sottostruttura della popolazione e selezione dei controlli negli studi di associazione su tutto il genoma .
  7. Alkes L. Price, Noah A. Zaitlen, David Reich e Nick Patterson (2010). Nuovi approcci alla stratificazione della popolazione negli studi di associazione su tutto il genoma , Nature Reviews Genetics
  8. Chao Tian, ​​et al. (2009). Sottostruttura genetica della popolazione europea: ulteriore definizione di marker informativi di origine per distinguere tra diversi gruppi etnici europei , medicina molecolare, 15 (11-12): 371–383.

Grazie mille. Naturalmente seguono quindi altre domande: 1) Cosa succede se ignoro il PCA e stratifico il mio campione GWAS solo da GENDER / RACE / AGE e ignoro il PCA. Come rifletterà l'analisi della mia associazione e il suo risultato? 2) Se in realtà voglio usare PCA quanti SNPS devo avere genotipizzato almeno per avere un PCA veritiero? 200 sono abbastanza? Devono essere uniformemente dispersi su tutti i cromosomi? 3) Quali SNP vengono utilizzati in PCA? Questo set predefinito o uno qualsiasi?
suprvisr,

@suprvisr Posso rispondere subito o aggiornare la mia risposta, ma penso che sia meglio porre una nuova domanda (insieme all'idea di "pro e contro di adattamento con PCA vs. stratificazione") e collegarsi a questo in modo che le persone può chiaramente stabilire le connessioni necessarie.
chl

@AndyFrost ha suggerito che le seguenti figure potrebbero contenere le figure di riferimento: goo.gl/jNXx0x e l'immagine a cui potresti fare riferimento potrebbe essere in goo.gl/TcK3g8 .
gung - Ripristina Monica

@chl Potresti spiegare cosa intendi con questo: "Ciò che di solito viene fatto in questo caso è applicare la PCA in modo iterativo e rimuovere gli individui con punteggi inferiori a ± 6 ± 6 DS su almeno uno dei primi 20 principali assi". Stavo cercando una risposta al mio post qui: biostars.org/p/180336
MAPK
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.