La SVD della matrice correlata dovrebbe essere additiva ma non sembra esserlo


29

Sto solo cercando di replicare un reclamo fatto nel seguente documento, Trovare i ciclotteri correlati dai dati di espressione genica , che è:

Proposta 4. Se . Poi abbiamo:XIJ=RICJT

io. Se è un ciclista perfetto con modello additivo, allora è un ciclista perfetto con correlazione su colonne; ii. Se è un ciclista perfetto con modello additivo, allora è un ciclista perfetto con correlazione su righe; iii. Se sia che sono perfetti con modello additivo, allora è un bicluster correlato perfetto. X I J C J X I J R I C J X I JRIXIJ
CJXIJ
RICJXIJ

Queste proposizioni possono essere facilmente dimostrate ...

... ma ovviamente non lo provano.

Sto usando alcuni dei semplici esempi nel documento più base + codice R personalizzato per vedere se posso dimostrare questa proposta.

corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4)

(dalla tabella 1F)

del codice personalizzato per convertire lo standard X = formato svd in come descritto nel documento: X = R C TUdVTX=RCT

svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) {
#convert standard SVD decomposed matrices UEV' to RC' form
#x -> output of svd(M)
#r -> rank of matrix (defaults to length of singular values vector)
            # but really is the number of non-zero singular values
#ignoreRank -> return the full decomposition (ignore zero singular values)
#zerothresh -> how small is zero?

    R <- with(x, t(t(u) * sqrt(d)))
    C <- with(x, t(t(v) * sqrt(d)))

    if (!ignoreRank) {
        ind <- which(x$d >= zerothresh)
    } else {
        ind <- 1:r
    }

    return(list(R=as.matrix(R[,ind]), C=as.matrix(C[,ind])))
}

applica questa funzione al set di dati:

 > svdToRC(svd(corbic))
$R
           [,1]       [,2]
[1,]  0.8727254 -0.9497284
[2,] -2.5789775 -1.1784221
[3,]  4.3244283 -0.7210346
[4,] -0.8531261 -1.0640752

$C
          [,1]       [,2]
[1,] -1.092343 -1.0037767
[2,]  1.223860 -0.9812343
[3,]  3.540063 -0.9586919
[4,] -3.408546 -1.0263191

A meno che non sia allucinante, queste matrici non sono additive, anche se il corbic mostra una perfetta correlazione tra righe e colonne. Sembra strano che l'esempio che forniscono mostri la proprietà che hanno detto che dovrebbe ... a meno che non mi manchi qualche tipo di passaggio di trasformazione pre o post svd?


3
Ciao, zzk: Potrebbe essere utile dare brevemente la definizione di perfetto ciclista qui poiché (a) non tutti possono accedere al documento e (b) può significare un paio di cose diverse a seconda della generalità che si presume.
cardinale il

1
in sostanza, il valore assoluto dei punteggi di correlazione a coppie tra tutte le righe vs righe e colonne vs colonne della matrice sono 1.
zzk

3
Non ho capito bene. Non lo 4iiidice P(R), P(C), additivity => P(X)? (Sto abbreviando " Yè un ciclista perfetto" come P(Y)). Sembra che tu stia andando nella direzione opposta, aspettandoti quell'additività dalle altre condizioni. Per favore, spiega di più.
Stumpy Joe Pete,

Stumpy - mi aspetto additività in R & C perché la matrice che fornisco (corbica) mostra una correlazione perfetta - è il ciclista perfetto come indicato nel documento stesso.
zzk,

6
Sto ancora pensando che stai andando nella direzione sbagliata. 4iii non dice che se Xè un ciclista perfettamente correlato allora Re Csarà additivo. L'implicazione va nella direzione opposta. Ora, sono d'accordo che è strano che l'esempio che danno non sembri coincidere con i teoremi a cui è accanto. Forse ci sono altre informazioni che potresti fornire? C'è qualche altro teorema che va nella direzione opposta?
Stumpy Joe Pete,

Risposte:


2

Si noti che "ciclista" in questo articolo si riferisce a un sottoinsieme di una matrice, "un sottoinsieme di righe che mostrano un comportamento simile in un sottoinsieme di colonne o viceversa". L'identificazione dei ciclisti viene comunemente eseguita negli algoritmi di data mining. Gli autori propongono un nuovo "modello ciclico correlato" diverso dai modelli precedenti utilizzati per identificare questi sottoinsiemi. Non so nulla di genetica, ma la confusione qui sembra abbastanza chiara e proviene da due fonti:

1. Uso della parola "additivo"

In questo articolo non c'è nulla che implichi che le due matrici fornite nell'output della funzione debbano essere "additive", se per "additivo", l'inversione dell'additivo è ciò che si intende con OP. Gli autori non usano la parola additivo in questo senso. Si riferiscono all'ottenimento di un ciclista con un modello additivo, "in cui ogni riga o colonna può essere ottenuta aggiungendo una costante ad un'altra riga o colonna".

2. Proposta erroneamente interpretata 4.3

In seguito al commento di @StumpyJoePete, la proposizione dice che se sia che sono perfetti ciclisti con un modello additivo, allora è un perfetto ciclico correlato. Gli autori non dicono che sarà vero il contrario. Gli autori non sostengono che se è un perfetto ciclista correlato, allora e saranno additivi, in entrambi i sensi della parola "additivo". Non stanno dicendo che e dovrebbero essere inversamente additivi o che dovrebbero essere in grado di adattarsi a un modello di additivo. C J X I J X I J R I C J R I C JRICJXIJXIJRICJRICJ

* Inoltre, i dati di esempio provengono da una sezione completamente diversa del documento rispetto alla proposizione discussa nella domanda.


È bello vedere finalmente la risposta [di gran lunga] alla domanda senza risposta più votata sul nostro sito Web! +1 anche se non ho letto il documento e non posso garantire che ciò che hai scritto sia corretto; ma sembra ragionevole.
ameba dice di reintegrare Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.