Mostrando che 100 misurazioni per 5 soggetti forniscono molte meno informazioni di 5 misurazioni per 100 soggetti


21

Durante una conferenza ho sentito la seguente dichiarazione:

100 misurazioni per 5 soggetti forniscono molte meno informazioni rispetto a 5 misurazioni per 100 soggetti.

È abbastanza ovvio che questo è vero, ma mi chiedevo come si potesse dimostrarlo matematicamente ... Penso che si possa usare un modello misto lineare. Tuttavia, non so molto della matematica usata per lmer4stimarli (corro solo per LMM e bmrsGLMM :) Potresti mostrarmi un esempio in cui questo è vero? Preferirei una risposta con alcune formule, piuttosto che un po 'di codice in R. Sentiti libero di assumere un'impostazione semplice, come ad esempio un modello misto lineare con intercettazioni e pendenze casuali normalmente distribuite.

Anche una risposta matematica che non coinvolge gli LMM andrebbe bene. Ho pensato agli MMM perché mi sembravano lo strumento naturale per spiegare perché un minor numero di misure provenienti da più soggetti sono migliori di più misure provenienti da pochi soggetti, ma potrei anche sbagliarmi.


3
+1. Immagino che l'impostazione più semplice sia quella di considerare un compito di stima della media della popolazione μ cui ogni soggetto ha la propria media un'~N(μ,σun'2) e ogni misurazione di questo soggetto è distribuita come X~N(un',σ2) . Se prendiamo n misurazioni da ciascuna delle m soggetti, allora qual è il modo ottimale per serie n ed m dato prodotto costante nm=N .
ameba dice Reinstate Monica il

"Ottimale" nel senso di minimizzare la varianza della media campionaria degli punti dati acquisiti. N
ameba dice Ripristina Monica il

1
Sì. Ma per la tua domanda non dobbiamo preoccuparci di come stimare le varianze; la tua domanda (cioè la citazione in questione) è Credo che solo circa la stima della media globale e sembra ovvio che il miglior stimatore è dato dalle grandi medi · x di tutti N = n m punti nel campione. La domanda allora è: dato μ , σ 2 , σ 2 a , n e m , qual è la varianza di ˉ x ? Se lo sappiamo, saremo in grado di minimizzarlo rispetto a n dato l' n mμx¯N=nmμσ2σa2nmx¯n vincolo. nm=N
ameba dice Ripristina Monica il

1
Non so come derivarne nulla, ma concordo sul fatto che sembra ovvio: per stimare la varianza dell'errore sarebbe meglio avere tutte le misurazioni da un singolo soggetto; e per stimare la varianza del soggetto sarebbe (probabilmente?) meglio avere N soggetti diversi con 1 misurazione ciascuno. Tuttavia, non è così chiaro sulla media, ma la mia intuizione mi dice che avere N soggetti con 1 misurazione ciascuno sarebbe anche il migliore. Mi chiedo se sia vero ...NNN
Ameba dice Reinstate Monica il

2
Forse qualcosa del genere: la varianza delle medie campionarie per soggetto dovrebbe essere , dove il primo termine è la varianza del soggetto e il secondo è la varianza della stima della media di ciascun soggetto. Quindi la varianza della media dei soggetti sovrastanti (cioè la media maggiore) sarà ( σ 2 a + σ 2 / n ) / m = σ 2 a / m + σ 2 / ( n m ) = σ 2 a / mσa2+σ2/n che viene minimizzata quando m = N .
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
ameba dice Ripristina Monica il

Risposte:


25

La risposta breve è che la tua congettura è vera quando e solo quando c'è una correlazione positiva all'interno della classe nei dati . Dal punto di vista empirico, la maggior parte dei set di dati raggruppati la maggior parte delle volte mostra una correlazione positiva all'interno della classe, il che significa che in pratica la tua congettura è generalmente vera. Ma se la correlazione all'interno della classe è 0, i due casi che hai citato sono ugualmente informativi. E se la correlazione all'interno della classe è negativa , in realtà è meno informativo prendere meno misurazioni su più argomenti; preferiremmo effettivamente (per quanto riguarda la riduzione della varianza della stima dei parametri) prendere tutte le nostre misurazioni su un singolo argomento.

Statisticamente ci sono due punti di vista da cui si può pensare a questo: a effetti casuali (o misto ) il modello , che si menziona nella sua interrogazione, o un modello di marginali , che finisce per essere un po 'più informativo qui.

Modello a effetti casuali (misto)

Supponiamo di avere una serie di soggetti dai quali abbiamo preso m misurazioni ciascuno. Poi un semplice modello degli effetti casuali della j esima misura dal i esimo soggetto potrebbe essere y i j = β + u i + e i j , dove β è l'intercetta fisso, u i è l'effetto soggetto casuale (con varianza σ 2 u ), e i j è il termine di errore a livello di osservazione (con varianza σ 2 enmji

yij=β+ui+eij,
βuiσu2eijσe2) e gli ultimi due termini casuali sono indipendenti.

In questo modello rappresenta la media della popolazione e con un set di dati bilanciato (ovvero un numero uguale di misurazioni per ciascun soggetto), la nostra migliore stima è semplicemente la media del campione. Quindi se prendiamo "maggiori informazioni" per indicare una varianza minore per questa stima, allora in sostanza vogliamo sapere come la varianza della media del campione dipende da n e m . Con un po 'di algebra possiamo capire che var ( 1βnm

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2ivar(ui)+ijvar(eij))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
σu2>0nm

mnnm essere una costante, in modo che l'intera espressione della varianza assomigli

σu2n+costante,
che è il più piccolo possibile quando n è il più grande possibile (fino a un massimo di n=nm, in quale caso m=1, nel senso che prendiamo una singola misura da ogni soggetto).

La mia breve risposta si riferiva alla correlazione all'interno della classe, quindi dove si adatta? In questo semplice modello a effetti casuali la correlazione all'interno della classe è

ρ=σu2σu2+σe2
(schizzo di una derivazione qui ). Quindi possiamo scrivere l'equazione della varianza sopra come
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)
This doesn't really add any insight to what we already saw above, but it does make us wonder: since the intra-class correlation is a bona fide correlation coefficient, and correlation coefficients can be negative, what would happen (and what would it mean) if the intra-class correlation were negative?

In the context of the random-effects model, a negative intra-class correlation doesn't really make sense, because it implies that the subject variance σu2 is somehow negative (as we can see from the ρequazione sopra, e come spiegato qui e qui ) ... ma le varianze non possono essere negative! Ma ciò non significa che il concetto di una correlazione negativa all'interno della classe non abbia senso; significa solo che il modello a effetti casuali non ha alcun modo di esprimere questo concetto, che è un fallimento del modello, non del concetto. Per esprimere adeguatamente questo concetto, dobbiamo considerare il modello marginale.

Modello marginale

Per questo stesso set di dati potremmo considerare un cosiddetto modello marginale di yioj,

yioj=β+eioj*,
dove fondamentalmente abbiamo spinto l'effetto soggetto casuale uio da prima nel termine di errore eioj così che abbiamo eioj*=uio+eioj. Nel modello a effetti casuali abbiamo considerato i due termini casualiuio e eioj to be i.i.d., but in the marginal model we instead consider eij to follow a block-diagonal covariance matrix C like
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
In words, this means that under the marginal model we simply consider ρ to be the expected correlation between two es from the same subject (we assume the correlation across subjects is 0). When ρ is positive, two observations drawn from the same subject tend to be more similar (closer together), on average, than two observations drawn randomly from the dataset while ignoring the clustering due to subjects. When ρ is negative, two observations drawn from the same subject tend to be less similar (further apart), on average, than two observations drawn completely at random. (More information about this interpretation in the question/answers here.)

So now when we look at the equation for the variance of the sample mean under the marginal model, we have

var(1nmijyij)=var(1nmijβ+eij)=1n2m2var(ijeij)=1n2m2(n(mσ2+(m2m)ρσ2))=σ2(1+(m1)ρ)nm=(ρn+1ρnm)σ2,
which is the same variance expression we derived above for the random-effects model, just with σe2+σu2=σ2, which is consistent with our note above that eij=ui+eij. The advantage of this (statistically equivalent) perspective is that here we can think about a negative intra-class correlation without needing to invoke any weird concepts like a negative subject variance. Negative intra-class correlations just fit naturally in this framework.

(BTW, just a quick aside to point out that the second-to-last line of the derivation above implies that we must have ρ1/(m1), or else the whole equation is negative, but variances can't be negative! So there is a lower bound on the intra-class correlation that depends on how many measurements we have per cluster. For m=2 (i.e., we measure each subject twice), the intra-class correlation can go all the way down to ρ=1; for m=3 it can only go down to ρ=1/2; and so on. Fun fact!)

So finally, once again considering the total number of observations nm to be a constant, we see that the second-to-last line of the derivation above just looks like

(1+(m1)ρ)×positive constant.
So when ρ>0, having m as small as possible (so that we take fewer measurements of more subjects--in the limit, 1 measurement of each subject) makes the variance of the estimate as small as possible. But when ρ<0, we actually want m to be as large as possible (so that, in the limit, we take all nm measurements from a single subject) in order to make the variance as small as possible. And when ρ=0, the variance of the estimate is just a constant, so our allocation of m and n doesn't matter.

3
+1. Great answer. I have to admit that the second part, about ρ<0, is quite unintuitive: even with a huge (or infinite) total number nm of observations the best we can do is to allocate all observations to one single subject, meaning that the standard error of the mean will be σu and it's not possible in principle to reduce it any further. This is just so weird! True β remains unknowable, whatever resources one puts into measuring it. Is this interpretation correct?
amoeba says Reinstate Monica

3
Ah, no. The above is not correct because as m increases to infinity, ρ cannot stay negative and has to approach zero (corresponding to zero subject variance). Hmm. This negative correlation is a funny thing: it's not really a parameter of the generative model because it's constrained by the sample size (whereas one would normally expect a generative model to be able to generate any number of observations, whatever the parameters are). I am not quite sure what is the proper way to think about it.
amoeba says Reinstate Monica

1
@DeltaIV What is "the covariance matrix of the random effects" in this case? In the mixed model written by Jake above, there is only one random effect and so there is no "covariance matrix" really, but just one number: σu2. What Σ are you referring to?
amoeba says Reinstate Monica

2
@DeltaIV Well, the general principle is en.wikipedia.org/wiki/Inverse-variance_weighting, and the variance of each subject's sample mean is given by σu2+σe2/mi (that's why Jake wrote above that the weights have to depend on the estimate of between-subject variance). The estimate of within-subject variance is given by the variance of the pooled within-subject deviations, the estimate of between-subject variance is the variance of subjects' means, and using all that one can compute the weights. (But I am not sure if this is 100% equivalent to what lmer will do.)
amoeba says Reinstate Monica

1
Jake, yes, it's exactly this hard-coding of m that was bothering me. If this is "sample size" then it cannot be a parameter of the underlying system. My current thinking is that negative ρdovrebbe effettivamente indicare che esiste un altro fattore all'interno del soggetto che ci viene ignorato / sconosciuto. Ad esempio, potrebbe essere pre e post intervento e la differenza tra loro è così grande che le misurazioni sono negativamente correlate. Ma questo significherebbe questomnon è in realtà una dimensione del campione, ma il numero di livelli di questo fattore sconosciuto, e questo può sicuramente essere codificato ...
ameba dice Reinstate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.