L'uso del polacco mediano per la selezione delle caratteristiche


9

In un articolo che stavo leggendo di recente mi sono imbattuto nel seguente bit nella loro sezione di analisi dei dati:

La tabella dei dati è stata quindi suddivisa in tessuti e linee cellulari e i due sottotitoli sono stati lucidati separatamente mediana (le righe e le colonne sono state regolate iterativamente per avere una mediana 0) prima di essere riunite in una singola tabella. Alla fine abbiamo quindi selezionato il sottoinsieme di geni la cui espressione variava di almeno 4 volte rispetto alla mediana in questo campione impostato in almeno tre dei campioni testati

Devo dire che non seguo davvero il ragionamento qui. Mi chiedevo se potevi aiutarmi a rispondere alle seguenti due domande:

  1. Perché è desiderabilmente / utile regolare la mediana nei set di dati? Perché dovrebbe essere fatto separatamente per diversi tipi di campioni?

  2. In che modo ciò non modifica i dati sperimentali? È un modo noto di selezionare un numero di geni / variabili da un ampio set di dati o è piuttosto ad hoc?

Grazie,


Puoi approfondire quale tipo di dati stai guardando? Penso a giudicare da quello che hai citato - per me - il metodo sembra molto ad hoc.
suncoolsu,

@suncoolsu: sono dati di microarray, se hai familiarità con il concetto. Altrimenti, potrei forse riassumerlo come; quali geni sono espressi, in che misura nei campioni studiati. Ecco una spiegazione migliore: en.wikipedia.org/wiki/Gene_expression_profiling
posdef

@suncoolsu Quasi sicuramente i dati dell'analisi dell'espressione genica.
Kriegar,

Ok - Non ne ero sicuro, anche il sequenziamento di nuova generazione sta diventando popolare.
suncoolsu,

Risposte:


10

Tukey Median Polish, l'algoritmo viene utilizzato nella normalizzazione RMA dei microarrays. Come forse saprai, i dati dei microarray sono piuttosto rumorosi, quindi hanno bisogno di un modo più robusto per stimare le intensità della sonda tenendo conto delle osservazioni per tutte le sonde e i microarray. Questo è un modello tipico utilizzato per normalizzare le intensità delle sonde attraverso le matrici.

i = 1 , , I

Yioj=μio+αj+εioj
io=1,...,ioj=1,...,J

Dove è l' l o g intensità PM trasformato per l' iYiojlog sonda sul j t h matrice. ϵ i j sono rumori di fondo e si può presumere che corrispondano al rumore nella normale regressione lineare. Tuttavia, un'ipotesi distributiva suϵpuò essere restrittiva, pertanto utilizziamo il Tukey Median Polish per ottenere le stime per ^ μ i e ^ α j . Questo è un modo solido di normalizzare attraverso le matrici, poiché vogliamo separare il segnale, l'intensità dovuta alla sonda, dall'effetto array,iothjthεiojεμio^αj^ . Possiamo ottenere il segnale normalizzando per l'effetto array ^ α j per tutti gli array. Quindi, ci rimangono solo gli effetti della sonda più un po 'di rumore casuale.ααj^

Il link che ho citato prima usa la lucidatura mediana di Tukey per stimare i geni espressi in modo differenziato o geni "interessanti" classificandoli per effetto della sonda. Tuttavia, il documento è piuttosto vecchio e probabilmente a quel tempo le persone stavano ancora cercando di capire come analizzare i dati dei microarray. Il documento sui metodi bayesiani empirici non parametrici di Efron è stato pubblicato nel 2001, ma probabilmente non sarebbe stato ampiamente utilizzato.

Tuttavia, ora capiamo molto sui microarrays (statisticamente) e siamo abbastanza sicuri della loro analisi statistica.

I dati di microarray sono piuttosto rumorosi e l'RMA (che utilizza il polacco mediano) è uno dei metodi di normalizzazione più popolari, forse per la sua semplicità. Altri metodi popolari e sofisticati sono: GCRMA, VSN. È importante normalizzare poiché l'interesse è l'effetto della sonda e non l' effetto della matrice.

Come prevedibile, l'analisi avrebbe potuto beneficiare di alcuni metodi che sfruttano il prestito di informazioni tra i geni. Questi possono includere metodi bayesiani o bayesiani empirici. Potrebbe essere il documento che stai leggendo che è vecchio e queste tecniche non erano ancora in circolazione.

Per quanto riguarda il tuo secondo punto, sì, probabilmente stanno modificando i dati sperimentali. Ma, penso, questa modifica è per una causa migliore, quindi giustificabile. Il motivo è

a) I dati di microarray sono piuttosto rumorosi. Quando l'interesse è l'effetto della sonda, è necessario normalizzare i dati tramite RMA, GCRMA, VSN, ecc. E può essere utile sfruttare qualsiasi struttura speciale nei dati. Ma eviterei di fare la seconda parte. Questo principalmente perché se non conosciamo la struttura in anticipo, è meglio non imporre molte ipotesi.

b) La maggior parte degli esperimenti di microarray sono di natura esplorativa, ovvero i ricercatori stanno cercando di restringere alcuni gruppi di "interessanti" geni per ulteriori analisi o esperimenti. Se questi geni hanno un segnale forte, modifiche come le normalizzazioni non dovrebbero (sostanzialmente) influenzare i risultati finali.

Pertanto, le modifiche possono essere giustificate. Ma devo sottolineare che esagerare con le normalizzazioni può portare a risultati errati.


+1 Questa è una risposta molto migliore del mio tentativo. Grazie.
Kriegar,

@posdef. Mi chiedo se ci fosse qualche statista coinvolto nell'analisi statistica del documento.
suncoolsu,

grazie per la tua risposta approfondita. Penso che il fatto che si tratti di una fase di pre-elaborazione non sia ben spiegato (o si supponga che sia ben noto) nel documento. A proposito, l'articolo è stato pubblicato nel 2000 (in Nature), quindi presumo che abbiano avuto almeno un po 'di statistico sui loro metodi, se non coinvolti nella scrittura. Ma ovviamente posso solo speculare .. :)
posdef

@posdef. Ok-cool risponde a molte domande. Il 2000 era il momento in cui le persone stavano ancora cercando di capire come analizzare i dati di microarray. La FDR non era
lussuosa

4

Puoi trovare alcuni indizi nelle pagine 4 e 5 di questo

È un metodo per calcolare i residui per il modello calcolando i valori per

yio,j=m+un'io+Bj+eio,j
mun'ioBjeio,j

mun'ioBj

Il vantaggio di usare la mediana è la robustezza di un piccolo numero di valori anomali; lo svantaggio è che stai gettando via informazioni potenzialmente utili se non ci sono valori anomali.


grazie per la risposta e il link di riferimento. Tuttavia, non riesco a vedere come questo modello si applica al problema attuale. dato che i dati sono valori di espressione comparativa (leggi: abbondanza) come si possono definire , b j ed e i , j ?? un'ioBjeio,j
posdef

nio,j=nioqj+eio,jlog(nio,j)=log(n)+log(pio)+log(qj)+eio,j

@Henry Quali informazioni vengono "espulse" con lo smalto mediano quando non ci sono "valori anomali" (e cosa intendi esattamente con "outlier")? Dopotutto, puoi ricostruire i dati esattamente per mezzo della mediana grande, delle mediane di riga e colonna e dei residui, che costituiscono tutti l'output della lucidatura mediana. Se intendi dire che i residui vengono scartati, allora in che senso "media polish" (equivalente a OLS) è diverso in questo senso?
whuber

@whuber: i residui sono conservati in entrambi i casi. Il polacco medio tiene conto di quanto distano le osservazioni dal centro (in un certo senso, equilibra i pesi dei residui) mentre il polacco mediano controlla solo se sono sopra o sotto il centro (in un certo senso, bilancia il numero di residui). Pertanto, le informazioni sul peso non vengono utilizzate quando si utilizza la mediana come centro; questo può essere positivo quando alcuni dei pesi / residui sostanziali sono così dubbi che il risultato per il centro non può essere attendibile, ma comporta il non utilizzo di informazioni in caso contrario.
Henry,

@Henry Se riesci a recuperare tutti i dati originali dal polacco, allora come "informazioni" non "vengono" utilizzate? A proposito, la lucidatura mediana non si comporta come sembra descriverti: i suoi residui sono le differenze nei valori , non nei ranghi, dei dati.
whuber

3

Sembra che tu stia leggendo un documento che presenta alcune analisi dell'espressione differenziale genica. Dopo aver fatto delle ricerche sui chip per microarray, posso condividere le poche conoscenze (possibilmente corrette) che ho sull'uso del lucido mediano.

L'uso della lucidatura mediana durante la fase di riepilogo della preelaborazione del microarray è in qualche modo un modo standard per eliminare i dati degli outlier con chip di solo sonda con riscontro perfetto (almeno per RMA).

La lucidatura mediana per i dati di microarray è dove hai l'effetto chip e l'effetto sonda come righe e colonne:

per ogni set di sonde (composto da n numero della stessa sonda) su x chip:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

dove iv sono valori di intensità

A causa della variabilità delle intensità della sonda, quasi tutte le analisi dei dati di microarray vengono preelaborate utilizzando una sorta di correzione di fondo e normalizzazione prima del riepilogo.

ecco alcuni link ai thread della mailing list bioC che parlano dell'uso della median polish rispetto ad altri metodi:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

I dati dai tessuti e dalle linee cellulari vengono solitamente analizzati separatamente perché quando le cellule vengono coltivate i loro profili di espressione cambiano radicalmente dai campioni di tessuto raccolti. Senza avere più carta è difficile dire se l'elaborazione dei campioni separatamente fosse appropriata.

Le fasi di normalizzazione, correzione dello sfondo e riepilogo nella pipeline dell'analisi sono tutte modifiche dei dati sperimentali, ma nel suo stato non elaborato, gli effetti del chip, gli effetti batch, gli effetti di elaborazione metterebbero in ombra qualsiasi segnale per l'analisi. Questi esperimenti di microarray generano elenchi di geni che sono candidati per esperimenti di follow-up (qPCR, ecc.) Per confermare i risultati.

Per quanto riguarda l'essere ad hoc, chiedi a 5 persone quale differenza di piega è necessaria affinché un gene sia considerato espresso in modo differenziato e otterrai almeno 3 risposte diverse.


Grazie per gli aggiornamenti sulla tua risposta, penso che sto iniziando a farmi un'idea ora. Quindi, se capisco correttamente, la lucidatura mediana viene utilizzata per valutare la variabilità tecnica rispetto alla sonda e al chip? ... prima che l'esperimento sia riassunto fino a 1 matrice contenente valori di espressione per geni in condizioni diverse?
posdef

@posdef dalla mia comprensione sì. Per ogni probeset su un chip (sonde della stessa sequenza) ci sono sonde sparse ovunque. plmimagegallery.bmbolstad.com per alcune pseudo immagini di chip. Oltre alla variabilità all'interno di un singolo chip, esiste una variabilità tra i chip. A causa della variabilità tecnica, gli algoritmi vengono eseguiti sui valori di intensità grezzi per ottenere un singolo "valore di espressione" per il probeset. La matrice di questi valori è quindi adatta per determinare se i geni sono espressi in modo diverso in condizioni diverse.
Kriegar,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.