t-test per dati parzialmente accoppiati e parzialmente non accoppiati


28

Un investigatore desidera produrre un'analisi combinata di diversi set di dati. In alcuni set di dati ci sono osservazioni accoppiate per il trattamento A e B. In altri ci sono dati A e / o B non accoppiati. Sto cercando un riferimento per un adattamento del test t, o per un test del rapporto di verosimiglianza, per tali dati parzialmente accoppiati. Sono disposto (per ora) ad assumere la normalità con uguale varianza e che i mezzi della popolazione per A sono gli stessi per ogni studio (e allo stesso modo per B).


2
Ciao Frank Forse sarebbe utile rendere più esplicite le ipotesi di modellazione. Normalmente quando penso a progetti accoppiati, penso a uno dei seguenti (i) tentando di rimuovere effetti fissi non osservabili a livello di unità, (ii) riducendo la variabilità di un effetto casuale tra unità sperimentali o (iii) regolando la non-anomalia della risposta prendendo le differenze tra le coppie, ottenendo così una migliore approssimazione. In particolare, non vedo immediatamente alcun vantaggio nelle coppie abbinate se il presupposto sotto il valore nullo è che le osservazioni sono tutte normali.
cardinale

4
Cardinale, in realtà ho molti dati che assomigliano anche a questo. Stavamo cercando di raccogliere dati completamente accoppiati, ma a causa di problemi tecnici o sfortuna, alcune misurazioni dei campioni sotto A o B sono a volte guastate. Le due soluzioni ovvie - ma insoddisfacenti - sono: 1) eliminare tutte le coppie incomplete ed eseguire un test t accoppiato, oppure 2) ignorare l'associazione ed eseguire un test t non accoppiato su tutti i dati. Penso che il poster stia chiedendo un modo per sfruttare l'associazione laddove esiste (per la tua ragione n. 1 e n. 2), mentre recupera tutto ciò che può dagli altri punti dati non accoppiati.
Matt Krause,

2
Apprezzo tutti i commenti. Per le coppie abbinate i soggetti sono stati testati sia con A che con B. Un modo per sfruttare l'associazione è usare l'intervallo di confidenza percentile non parametrico del bootstrap per la differenza tra le medie in A e B. Ciò implicherebbe l'uso del bootstrap del cluster, campionando con la sostituzione da soggetti. Un soggetto che non ha dati accoppiati avrebbe un'osservazione conservata o eliminata in un ricampionamento e i dati accoppiati avrebbero due registrazioni conservate o cancellate. Questo sembra rispettare l'accoppiamento ma una stima deve essere definita e non sappiamo dell'ottimalità.
Frank Harrell,

1
L'approccio bayesiano è facile da implementare.
Stéphane Laurent,

2
Hani M. Samawi e Robert Vogel, Journal of Applied Statistics (2013): Note su due test di esempio per dati parzialmente correlati (accoppiati), dx.doi.org/10.1080/02664763.2013.830285
Suresh

Risposte:



8

Bene, se conoscessi le varianze negli accoppiati e negli accoppiati (che sarebbero generalmente molto più piccoli), i pesi ottimali per le due stime della differenza nei gruppi significherebbe avere pesi inversamente proporzionali alla varianza dell'individuo stime della differenza nelle medie.

[Modifica: si scopre che quando le varianze sono stimate, questo è chiamato lo stimatore di Graybill-Deal. Ci sono stati alcuni documenti su di esso. Eccone uno]

La necessità di stimare la varianza causa qualche difficoltà (il rapporto risultante delle stime di varianza è F, e penso che i pesi risultanti abbiano una distribuzione beta e una statistica risultante sia un po 'complicata), ma dal momento che stai considerando l'avvio del bootstrap, questo potrebbe essere meno di una preoccupazione.

Una possibilità alternativa che potrebbe essere più piacevole in un certo senso (o almeno un po 'più robusta rispetto alla non normalità, dal momento che stiamo giocando con rapporti di varianza) con una perdita di efficienza molto ridotta al normale è quella di basare una stima combinata di spostamento test di rango accoppiati e non accoppiati - in ogni caso una sorta di stima di Hodges-Lehmann, nel caso non accoppiato basato su mediane di differenze incrociate campionarie a coppie e nel caso accoppiato su mediane di differenze di coppie medie. Ancora una volta, la combinazione lineare ponderata minima tra le due sarebbe con pesi proporzionali alle inversioni di varianze. In quel caso probabilmente mi spingerei verso una permutazione (/ randomizzazione) piuttosto che un bootstrap - ma a seconda di come implementate il bootstrap possono finire nello stesso posto.

In entrambi i casi potresti voler rinforzare le tue varianze / ridurre il tuo rapporto di varianza. Entrare nel campo da baseball giusto per il peso è buono, ma perderai pochissima efficienza al normale rendendolo leggermente robusto. ---

Alcuni pensieri aggiuntivi che non avevo abbastanza chiaramente risolto nella mia testa prima:

Questo problema ha nette somiglianze con il problema Behrens-Fisher, ma è ancora più difficile.

Se abbiamo fissato i pesi, abbiamo potuto solo colpire in un tipo di approssimazione Welch-Satterthwaite; la struttura del problema è la stessa.

Il nostro problema è che vogliamo ottimizzare i pesi, il che significa che la ponderazione non è corretta - e in effetti, tende a massimizzare la statistica (almeno approssimativamente e quasi quasi in grandi campioni, dal momento che ogni set di pesi è una quantità casuale che stima lo stesso numeratore e stiamo cercando di ridurre al minimo il denominatore; i due non sono indipendenti).

Ciò, a mio avviso, peggiorerebbe l'approssimazione del chi-quadro e influenzerebbe quasi sicuramente ulteriormente la df di un'approssimazione.

[Se questo problema è fattibile, potrebbe anche esserci una buona regola empirica che direbbe 'puoi fare quasi altrettanto se usi solo i dati associati in questi insiemi di circostanze, solo i non abbinati in questi altri insiemi di condizioni e nel resto, questo schema di peso fisso è di solito molto vicino all'ottimale '- ma non trattengo il respiro aspettando quella possibilità. Una tale regola di decisione avrebbe senza dubbio un certo impatto sul vero significato in ciascun caso, ma se tale effetto non fosse così grande, una tale regola empirica darebbe un modo semplice per le persone di utilizzare software legacy esistente, quindi potrebbe essere desiderabile prova a identificare una regola come quella per gli utenti in una situazione del genere.]

---

Modifica: Nota per se stessi - È necessario tornare indietro e compilare i dettagli del lavoro sui test "campioni sovrapposti", in particolare i test t di campioni sovrapposti

---

Mi viene in mente che un test di randomizzazione dovrebbe funzionare bene -

  • dove i dati sono accoppiati si autorizzano casualmente le etichette di gruppo all'interno di coppie

  • dove i dati non sono accoppiati ma si presume abbiano una distribuzione comune (sotto il valore null), si autorizzano le assegnazioni di gruppo

  • ora puoi basare i pesi sulle due stime dello spostamento dalle stime della varianza relativa ( w1=1/(1+v1v2)), calcola la stima ponderata dello spostamento di ciascun campione randomizzato e vedi dove si inserisce il campione nella distribuzione randomizzata.


(Aggiunto molto più tardi)

Carta possibilmente pertinente:

Derrick, B., Russ B., Toher, D. e White, P. (2017),
"Statistica dei test per il confronto di mezzi per due campioni che includono osservazioni sia paired che indipendenti"
Journal of Modern Applied Statistical Methods , maggio , Vol. 16, n. 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm


1
+1. Ho una domanda sull'ultima parte della tua risposta. Quali stime di varianza (cioè quali pesi) useresti nel test di permutazione - quelli effettivi calcolati sul campione reale o calcoleresti i pesi per ciascuna permutazione in base ai dati di quella permutazione?
ameba dice di reintegrare Monica

@amoeba per tenere correttamente conto della natura campionaria del calcolo su cui baseresti quella particolare permutazione.
Glen_b

@amoeba Dovrei confrontarlo con altri approcci al problema.
Glen_b -Restate Monica,

1
A proposito, mi sono imbattuto in questo thread perché qualcuno mi ha avvicinato con i seguenti dati: due soggetti con dati accoppiati più due soggetti con dati non accoppiati (ovvero 3 misurazioni nel gruppo A, 3 misurazioni nel gruppo B, su questi 6 valori 2+ 2 sono accoppiati e il resto è spaiato). In questo caso non sono sufficienti i dati per stimare la varianza della stima del turno non accoppiato, quindi non ho potuto suggerire nulla a parte ignorare l'associazione e fare un test non accoppiato ... Ma questa è ovviamente una situazione piuttosto estrema.
ameba dice di reintegrare Monica

6

Ecco alcuni pensieri. Praticamente arrivo alla conclusione di Greg Snow che questo problema ha somiglianze distinte con il problema di Behrens-Fisher . Per evitare il lavaggio a mano, per prima cosa introduco alcune notazioni e formalizzo le ipotesi.

  • abbiamo osservazioni accoppiate x p A i e x p B i ( i = 1 , , n );nxipAxipBi=1,,n
  • nAnBxiAi=1,,nAxiBi=1,,nB
  • ogni osservazione è la somma di un effetto paziente e di un effetto terapeutico. Le variabili casuali corrispondenti sono

    • XipA=Pi+TiAXipB=Pi+TiB
    • XiA=Qi+UiAXiB=Ri+ViB

    Pi,Qi,RiN(0,σP2), and Tiτ,Uiτ,ViτN(μτ,σ2) (τ=A,B).

    • under the null hypothesis, μA=μB.

We form as usual a new variable Xi=XipAXipB. We have XiN(μAμB,2σ2).

Now we have three groups of observations, the Xi (size n), the XiA (size nA) and the XiB (size nB). The means are

  • XN(μAμB,2nσ2)
  • XAN(μA,1nA(σP2+σ2))
  • XBN(μB,1nB(σP2+σ2))

The next natural step is to consider

  • Y=X+XAXBN(2(μAμB),2nσ2+(1nA+1nB)(σP2+σ2))

Now basically we are stuck. The three sums of squares give estimations of σ2 with n1 df, σP2+σ2 with nA1 df and nB1 df respectively. The last two can be combined to give an estimation of (1nA+1nB)(σP2+σ2) with nA+nB2 df. The variance of Y is the sum of two terms, each of which can be estimated, but the recombination is not doable, just as in Behrens Fisher problem.

At this point I think one may plug-in any solution proposed to Behrens Fisher problem to get a solution to your problem.


1
I fixed a few typos in formulas. Please check!
kjetil b halvorsen

5

My first thought was a mixed effects model, but that has already been discussed so I won't say any more on that.

My other thought is that if it were theoretically possible that you could have measured paired data on all subjects but due to cost, errors, or another reason you don't have all the pairs, then you could treat the unmeasured effect for the unpaired subjects as missing data and use tools like the EM algorithm or Multiple Imputation (missing at random seems reasonable unless the reason a subject was only measured under 1 treatment was related to what their outcome would be under the other treatment).

It may be even simpler to just fit a bivariate normal to the data using maximum likelihood (with the likelihood factored based on the available data per subject), then do a likelihood ratio test comparing the distribution with the means equal vs. different means.

It has been a long time since my theory classes, so I don't know how these compare on optimality.


1
Thanks Greg. I'm leaning towards the customized maximum likelihood approach.
Frank Harrell

4

maybe mixed modelling with patient as random effect could be a way. With mixed modelling the correlation structure in the paired case and the partial missings in the unpaired case could be accounted for.


2
Since none of the datasets when analyzed individually would lead one to use random effects, I'm not seeing why random effects are helpful here. But it may be possible to use generalized least squares to allow each subject to have her own correlation structure. Unpaired observations would have correlation zero. Worth thinking about. Thanks.
Frank Harrell

sì, hai ragione, i set di dati non richiederebbero una modellazione mista se usati separatamente. Ma se li aggiungi in un unico set di dati, potresti utilizzare l'approccio per incorporare la correlazione nei dati associati e contemporaneamente utilizzare i dati non abbinati specificando una correlazione zero.
psj

1
Sì; il mio punto era che un modello misto potrebbe essere un eccessivo in quanto puoi facilmente specificare la struttura di correlazione che varia soggetto / soggetto usando minimi quadrati generalizzati (usando ad esempio la glsfunzione di R nel nlme4pacchetto.
Frank Harrell

3

Uno dei metodi proposti in Hani M. Samawi e Robert Vogel (Journal of Applied Statistics, 2013) consiste in una combinazione ponderata di punteggi T da campioni indipendenti e dipendenti in modo tale che il nuovo punteggio T sia uguale a

To=γ(μY-μXSX2/nX+Sy2/nY)+(1-γ)μDSD2/nD

dove Drappresenta i campioni delle differenze accoppiate prese dai dati correlati. Fondamentalmente il nuovo punteggio T è una combinazione ponderata del punteggio T spaiato con il nuovo termine di correzione.γrappresenta la proporzione di campioni indipendenti. quandoγ è uguale a 1 il test equivale a due campioni t-test, mentre se uguale a zero, è un t-test accoppiato.


1
Per quanto riguarda questo test conservativo ponderato per dati parzialmente correlati , gli autori sembrano distinguere diversi casi (grande approssimazione del campione, rapporto ineguale di campioni corrispondenti / indipendenti, piccoli campioni) al fine di ottenere la distribuzione diT0sotto il null. Sarebbe utile se li potessi sintetizzare nella tua risposta, dato che lo stesso articolo è referenziato in un'altra (parziale) risposta.
chl
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.