Tukey Median Polish, l'algoritmo viene utilizzato nella normalizzazione RMA dei microarrays. Come forse saprai, i dati dei microarray sono piuttosto rumorosi, quindi hanno bisogno di un modo più robusto per stimare le intensità della sonda tenendo conto delle osservazioni per tutte le sonde e i microarray. Questo è un modello tipico utilizzato per normalizzare le intensità delle sonde attraverso le matrici.
i = 1 , … , I
Yio j= μio+ αj+ ϵio j
i = 1 , … , Ij = 1 , … , J
Dove è l' l o g intensità PM trasformato per l' iYio jL o g sonda sul j t h matrice. ϵ i j sono rumori di fondo e si può presumere che corrispondano al rumore nella normale regressione lineare. Tuttavia, un'ipotesi distributiva suϵpuò essere restrittiva, pertanto utilizziamo il Tukey Median Polish per ottenere le stime per ^ μ i e ^ α j . Questo è un modo solido di normalizzare attraverso le matrici, poiché vogliamo separare il segnale, l'intensità dovuta alla sonda, dall'effetto array,iot hjt hεio jεμio^αj^ . Possiamo ottenere il segnale normalizzando per l'effetto array ^ α j per tutti gli array. Quindi, ci rimangono solo gli effetti della sonda più un po 'di rumore casuale.ααj^
Il link che ho citato prima usa la lucidatura mediana di Tukey per stimare i geni espressi in modo differenziato o geni "interessanti" classificandoli per effetto della sonda. Tuttavia, il documento è piuttosto vecchio e probabilmente a quel tempo le persone stavano ancora cercando di capire come analizzare i dati dei microarray. Il documento sui metodi bayesiani empirici non parametrici di Efron è stato pubblicato nel 2001, ma probabilmente non sarebbe stato ampiamente utilizzato.
Tuttavia, ora capiamo molto sui microarrays (statisticamente) e siamo abbastanza sicuri della loro analisi statistica.
I dati di microarray sono piuttosto rumorosi e l'RMA (che utilizza il polacco mediano) è uno dei metodi di normalizzazione più popolari, forse per la sua semplicità. Altri metodi popolari e sofisticati sono: GCRMA, VSN. È importante normalizzare poiché l'interesse è l'effetto della sonda e non l' effetto della matrice.
Come prevedibile, l'analisi avrebbe potuto beneficiare di alcuni metodi che sfruttano il prestito di informazioni tra i geni. Questi possono includere metodi bayesiani o bayesiani empirici. Potrebbe essere il documento che stai leggendo che è vecchio e queste tecniche non erano ancora in circolazione.
Per quanto riguarda il tuo secondo punto, sì, probabilmente stanno modificando i dati sperimentali. Ma, penso, questa modifica è per una causa migliore, quindi giustificabile. Il motivo è
a) I dati di microarray sono piuttosto rumorosi. Quando l'interesse è l'effetto della sonda, è necessario normalizzare i dati tramite RMA, GCRMA, VSN, ecc. E può essere utile sfruttare qualsiasi struttura speciale nei dati. Ma eviterei di fare la seconda parte. Questo principalmente perché se non conosciamo la struttura in anticipo, è meglio non imporre molte ipotesi.
b) La maggior parte degli esperimenti di microarray sono di natura esplorativa, ovvero i ricercatori stanno cercando di restringere alcuni gruppi di "interessanti" geni per ulteriori analisi o esperimenti. Se questi geni hanno un segnale forte, modifiche come le normalizzazioni non dovrebbero (sostanzialmente) influenzare i risultati finali.
Pertanto, le modifiche possono essere giustificate. Ma devo sottolineare che esagerare con le normalizzazioni può portare a risultati errati.