La risposta breve è che la tua congettura è vera quando e solo quando c'è una correlazione positiva all'interno della classe nei dati . Dal punto di vista empirico, la maggior parte dei set di dati raggruppati la maggior parte delle volte mostra una correlazione positiva all'interno della classe, il che significa che in pratica la tua congettura è generalmente vera. Ma se la correlazione all'interno della classe è 0, i due casi che hai citato sono ugualmente informativi. E se la correlazione all'interno della classe è negativa , in realtà è meno informativo prendere meno misurazioni su più argomenti; preferiremmo effettivamente (per quanto riguarda la riduzione della varianza della stima dei parametri) prendere tutte le nostre misurazioni su un singolo argomento.
Statisticamente ci sono due punti di vista da cui si può pensare a questo: a effetti casuali (o misto ) il modello , che si menziona nella sua interrogazione, o un modello di marginali , che finisce per essere un po 'più informativo qui.
Modello a effetti casuali (misto)
Supponiamo di avere una serie di soggetti dai quali abbiamo preso m misurazioni ciascuno. Poi un semplice modello degli effetti casuali della j esima misura dal i esimo soggetto potrebbe essere
y i j = β + u i + e i j ,
dove β è l'intercetta fisso, u i è l'effetto soggetto casuale (con varianza σ 2 u ), e i j è il termine di errore a livello di osservazione (con varianza σ 2 enmji
yij=β+ui+eij,
βuiσ2ueijσ2e) e gli ultimi due termini casuali sono indipendenti.
In questo modello rappresenta la media della popolazione e con un set di dati bilanciato (ovvero un numero uguale di misurazioni per ciascun soggetto), la nostra migliore stima è semplicemente la media del campione. Quindi se prendiamo "maggiori informazioni" per indicare una varianza minore per questa stima, allora in sostanza vogliamo sapere come la varianza della media del campione dipende da n e m . Con un po 'di algebra possiamo capire che
var ( 1βnm
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+ui+eij)=1n2m2var(∑i∑jui+∑i∑jeij)=1n2m2(m2∑ivar(ui)+∑i∑jvar(eij))=1n2m2(nm2σ2u+nmσ2e)=σ2un+σ2enm.
σ2u>0nm
mnn m essere una costante, in modo che l'intera espressione della varianza assomigli
σ2un+ costante ,
che è il più piccolo possibile quando
n è il più grande possibile (fino a un massimo di
n = n m, in quale caso
m = 1, nel senso che prendiamo una singola misura da ogni soggetto).
La mia breve risposta si riferiva alla correlazione all'interno della classe, quindi dove si adatta? In questo semplice modello a effetti casuali la correlazione all'interno della classe è
ρ = σ2uσ2u+ σ2e
(schizzo di una derivazione
qui ). Quindi possiamo scrivere l'equazione della varianza sopra come
var ( 1n mΣioΣjyio j) = σ2un+ σ2en m= ( ρn+1−ρnm)(σ2u+σ2e)
This doesn't really add any insight to what we already saw above, but it does make us wonder: since the intra-class correlation is a bona fide correlation coefficient, and correlation coefficients can be negative, what would happen (and what would it mean) if the intra-class correlation were negative?
In the context of the random-effects model, a negative intra-class correlation doesn't really make sense, because it implies that the subject variance σ2u is somehow negative (as we can see from the ρequazione sopra, e come spiegato qui e qui ) ... ma le varianze non possono essere negative! Ma ciò non significa che il concetto di una correlazione negativa all'interno della classe non abbia senso; significa solo che il modello a effetti casuali non ha alcun modo di esprimere questo concetto, che è un fallimento del modello, non del concetto. Per esprimere adeguatamente questo concetto, dobbiamo considerare il modello marginale.
Modello marginale
Per questo stesso set di dati potremmo considerare un cosiddetto modello marginale di yio j,
yio j= β+ e*io j,
dove fondamentalmente abbiamo spinto l'effetto soggetto casuale
uio da prima nel termine di errore
eio j così che abbiamo
e*io j= uio+ eio j. Nel modello a effetti casuali abbiamo considerato i due termini casuali
uio e
eio j to be
i.i.d., but in the marginal model we instead consider
e∗ij to follow a block-diagonal covariance matrix
C like
C=σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥,R=⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
In words, this means that under the marginal model we simply consider
ρ to be the expected correlation between two
e∗s from the same subject (we assume the correlation across subjects is 0). When
ρ is positive, two observations drawn from the same subject tend to be more similar (closer together), on average, than two observations drawn randomly from the dataset while ignoring the clustering due to subjects. When
ρ is
negative, two observations drawn from the same subject tend to be
less similar (further apart), on average, than two observations drawn completely at random. (More information about this interpretation in
the question/answers here.)
So now when we look at the equation for the variance of the sample mean under the marginal model, we have
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+e∗ij)=1n2m2var(∑i∑je∗ij)=1n2m2(n(mσ2+(m2−m)ρσ2))=σ2(1+(m−1)ρ)nm=(ρn+1−ρnm)σ2,
which is the same variance expression we derived above for the random-effects model, just with
σ2e+σ2u=σ2, which is consistent with our note above that
e∗ij=ui+eij. The advantage of this (statistically equivalent) perspective is that here we can think about a negative intra-class correlation without needing to invoke any weird concepts like a negative subject variance. Negative intra-class correlations just fit naturally in this framework.
(BTW, just a quick aside to point out that the second-to-last line of the derivation above implies that we must have ρ≥−1/(m−1), or else the whole equation is negative, but variances can't be negative! So there is a lower bound on the intra-class correlation that depends on how many measurements we have per cluster. For m=2 (i.e., we measure each subject twice), the intra-class correlation can go all the way down to ρ=−1; for m=3 it can only go down to ρ=−1/2; and so on. Fun fact!)
So finally, once again considering the total number of observations nm to be a constant, we see that the second-to-last line of the derivation above just looks like
(1+(m−1)ρ)×positive constant.
So when
ρ>0, having
m as small as possible (so that we take fewer measurements of more subjects--in the limit, 1 measurement of each subject) makes the variance of the estimate as small as possible. But when
ρ<0, we actually want
m to be as
large as possible (so that, in the limit, we take all
nm measurements from a single subject) in order to make the variance as small as possible. And when
ρ=0, the variance of the estimate is just a constant, so our allocation of
m and
n doesn't matter.