Consentiamo a di un vettore casuale dimensionale, ovvero una raccolta di variabili casuali a posizione fissa (funzioni reali misurabili).x=(X1,...,Xj,...,Xk)k−
Considera molti di questi vettori, come , e indicizza questi vettori con , quindi, diciamoni=1,...,n
xi=(X1i,...,Xji,...,Xki)
e considerali come una raccolta chiamata "il campione", . Quindi chiamiamo ogni vettore dimensionale una "osservazione" (sebbene diventi realmente una sola volta che misuriamo e registriamo le realizzazioni delle variabili casuali coinvolte).
S=(x1,...,xi,...,xn)k−
Per prima cosa trattiamo il caso in cui esiste una funzione di massa di probabilità (PMF) o una funzione di densità di probabilità (PDF) e congiungiamo anche tali funzioni. Indicare con il PMF congiunto o il PDF congiunto di ciascun vettore casuale e il PMF congiunto o il PDF congiunto di tutti questi vettori insieme. fi(xi),i=1,...,nf(x1,...,xi,...,xn)
Quindi, il campione viene chiamato "campione indipendente", se vale la seguente uguaglianza matematica:S
f(x1,...,xi,...,xn)=∏i=1nfi(xi),∀(x1,...,xi,...,xn)∈DS
dove è il dominio congiunto creato da vettori / osservazioni casuali. nDSn
Ciò significa che le "osservazioni" sono "congiuntamente indipendenti", (in senso statistico, o "indipendenti nella probabilità", come era il vecchio detto che si vede ancora oggi a volte). L'abitudine è semplicemente chiamarli "osservazioni indipendenti".
Si noti che la proprietà dell'indipendenza statistica qui è sopra l'indice , cioè tra le osservazioni. Non è correlato a quali siano le relazioni probabilistiche / statistiche tra le variabili casuali in ciascuna osservazione (nel caso generale trattiamo qui dove ogni osservazione è multidimensionale).i
Si noti inoltre che nei casi in cui abbiamo variabili casuali continue senza densità, quanto sopra può essere espresso in termini di funzioni di distribuzione.
Questo è ciò che "osservazioni indipendenti" mezzi . È una proprietà definita con precisione espressa in termini matematici. Vediamo alcune delle implicazioni .
ALCUNE CONSEGUENZE DI AVERE OSSERVAZIONI INDIPENDENTI
A. Se due osservazioni fanno parte di un gruppo di osservazioni congiuntamente indipendenti, allora sono anche "indipendenti dalla coppia" (statisticamente),
f(xi,xm)=fi(xi)fm(xm)∀i≠m,i,m=1,...,n
Ciò a sua volta implica che i PMF / PDF condizionali sono uguali a quelli "marginali"
f(xi∣xm)=fi(xi)∀i≠m,i,m=1,...,n
Questo generalizza molti argomenti, condizionati o condizionanti, diciamo
f(xi,xℓ∣xm)=f(xi,xℓ),f(xi∣xm,xℓ)=fi(xi)
ecc., purché gli indici a sinistra siano diversi dagli indici a destra della linea verticale.
Ciò implica che se osserviamo effettivamente un'osservazione, le probabilità che caratterizzano qualsiasi altra osservazione del campione non cambiano. Per quanto riguarda la previsione , un campione indipendente non è il nostro migliore amico. Preferiremmo avere dipendenza in modo che ogni osservazione potesse aiutarci a dire qualcosa in più su qualsiasi altra osservazione.
B. D'altra parte, un campione indipendente ha il massimo contenuto informativo. Ogni osservazione, essendo indipendente, porta informazioni che non possono essere dedotte, in tutto o in parte, da qualsiasi altra osservazione nel campione. Quindi la somma totale è massima, rispetto a qualsiasi campione comparabile in cui esiste una dipendenza statistica tra alcune delle osservazioni. Ma a che servono queste informazioni, se non possono aiutarci a migliorare le nostre previsioni?
Bene, si tratta di informazioni indirette sulle probabilità che caratterizzano le variabili casuali nel campione. Più queste osservazioni hanno caratteristiche comuni (distribuzione della probabilità comune nel nostro caso), più siamo in una posizione migliore per scoprirle, se il nostro campione è indipendente.
In altre parole se il campione è indipendente e "identicamente distribuito", significa
fi(xi)=fm(xm)=f(x),i≠m
è il miglior esempio possibile per ottenere informazioni non solo sulla distribuzione comune di probabilità comune , ma anche per le distribuzioni marginali delle variabili casuali che compongono ciascuna osservazione, diciamo . f(x)fj(xji)
Quindi anche se , quindi zero ulteriore potere predittivo per quanto riguarda l'effettiva realizzazione di , con un campione indipendente e identicamente distribuito, siamo nel migliore posizione per scoprire le funzioni (o alcune delle sue proprietà), ovvero le distribuzioni marginali.f(xi∣xm)=fi(xi)xi fi
Pertanto, per quanto riguarda la stima (che a volte viene utilizzata come termine generico, ma qui dovrebbe essere mantenuta distinta dal concetto di previsione ), un campione indipendente è il nostro "migliore amico", se combinato con il "identicamente distribuito " proprietà.
C. Ne consegue anche che un campione indipendente di osservazioni in cui ciascuna è caratterizzata da una distribuzione di probabilità totalmente diversa, senza caratteristiche comuni di sorta, è una raccolta di informazioni inutile quanto si può ottenere (ovviamente ogni informazione da sola è degno, il problema qui è che nel loro insieme questi non possono essere combinati per offrire qualcosa di utile). Immagina un campione contenente tre osservazioni: una contenente (caratteristiche quantitative di) frutti provenienti dal Sud America, un'altra contenente montagne d'Europa e una terza contenente abiti provenienti dall'Asia. Informazioni piuttosto interessanti tutte e tre, ma insieme come esempio non possono fare nulla di statisticamente utile per noi.
In altre parole, condizione necessaria e sufficiente per rendere utile un campione indipendente, è che le osservazioni hanno alcune caratteristiche statistiche in comune. Questo è il motivo per cui, in Statistica, la parola "campione" non è sinonimo di "raccolta di informazioni" in generale, ma di "raccolta di informazioni su entità che presentano alcune caratteristiche comuni".
APPLICAZIONE ALL'ESEMPIO DI DATI DELL'OP
Rispondendo a una richiesta dell'utente @gung, esaminiamo l'esempio dell'OP alla luce di quanto sopra. Supponiamo ragionevolmente che siamo in una scuola con più di due insegnanti e più di sei alunni. Quindi a) stiamo campionando sia gli alunni che gli insegnanti, e b) includiamo nel nostro set di dati il voto corrispondente a ciascuna combinazione insegnante-alunno.
Vale a dire, i voti non sono "campionati", sono una conseguenza del campionamento che abbiamo fatto su insegnanti e alunni. Pertanto è ragionevole trattare la variabile casuale (= grado) come "variabile dipendente", mentre gli alunni ( ) e gli insegnanti sono "variabili esplicative" (non tutte le possibili variabili esplicative, solo alcune ). Il nostro esempio è costituito da sei osservazioni che scriviamo esplicitamente, comeGPTS=(s1,...,s6)
s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)
Partendo dal presupposto dichiarato "gli alunni non si influenzano a vicenda", possiamo considerare le variabili come distribuite indipendentemente. dal presupposto non dichiarato che "tutti gli altri fattori" che possono influenzare il Grado sono indipendenti l'uno dall'altro, possiamo anche considerare le variabili indipendenti l'una dall'altra.
Infine, partendo dal presupposto non dichiarato che gli insegnanti non si influenzano a vicenda, possiamo considerare le variabili come statisticamente indipendenti tra loro.PiGi
T1,T2
Ma indipendentemente da quale ipotesi causale / strutturale faremo riguardo alla relazione tra insegnanti e alunni , resta il fatto che le osservazioni contengono la stessa variabile casuale ( ), mentre osservazioni contiene anche la stessa variabile casuale ( ). s1,s2,s3s 4 , s 5 , s 6 T 2T1s4,s5,s6T2
Nota attentamente la distinzione tra "la stessa variabile casuale" e "due distinte variabili casuali che hanno distribuzioni identiche".
Quindi, anche se assumiamo che "gli insegnanti NON influenzino gli alunni", tuttavia, il nostro campione come definito sopra non è un campione indipendente, poiché sono statisticamente dipendenti da , mentre sono statisticamente dipendenti da . T 1 s 4 , s 5 , s 6s1,s2,s3T1s4,s5,s6T2
Supponiamo ora di escludere la variabile casuale "insegnante" dal nostro campione. Il campione (Pupilla, Grado) di sei osservazioni, è un campione indipendente?
Qui, le ipotesi che faremo riguardo alla relazione strutturale tra insegnanti, alunni e voti sono importanti.
In primo luogo, gli insegnanti influenzano direttamente la variabile casuale "Grado", forse attraverso diversi "atteggiamenti / stili di classificazione"? Ad esempio potrebbe essere un "selezionatore difficile" mentre potrebbe non esserlo. In tal caso "non vedere" la variabile "Insegnante" non rende il campione indipendente, perché ora sono che dipendono, a causa di una comune fonte di influenza, (e analogamente per gli altri tre ). T1T2G1,G2,G3T1
Ma dire che gli insegnanti sono identici in questo senso. Quindi, sotto il presupposto dichiarato "gli insegnanti influenzano gli studenti", abbiamo ancora una volta che le prime tre osservazioni sono dipendenti l'una dall'altra, perché gli insegnanti influenzano gli alunni che influenzano i voti e arriviamo allo stesso risultato, anche se indirettamente in questo caso (e allo stesso modo per il altri tre). Quindi, di nuovo, il campione non è indipendente.
IL CASO DEL GENERE
Ora, rendiamo il campione di sei osservazioni (Pupilla, Grado) "condizionatamente indipendente rispetto all'insegnante" (vedi altre risposte) assumendo che tutti e sei gli alunni abbiano in realtà lo stesso insegnante. Inoltre, includiamo nel campione la variabile casuale " = Gender" che tradizionalmente prende due valori ( ), mentre recentemente ha iniziato a prenderne di più. Il nostro campione di sei osservazioni tridimensionale ancora una volta è oraGeM,F
s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)
Nota attentamente che ciò che abbiamo incluso nella descrizione del campione per quanto riguarda il genere, non è il valore effettivo che prende per ogni alunno, ma la variabile casuale "Genere" . Guarda indietro all'inizio di questa lunghissima risposta: il campione non è definito come una raccolta di numeri (o valori numerici fissi o non in generale), ma come una raccolta di variabili casuali (cioè di funzioni).
Ora, il genere di un alunno influenza (strutturalmente o statisticamente) il genere di un altro alunno? Potremmo ragionevolmente sostenere che non lo sia. Quindi da questo punto di vista, le variabili sono indipendenti. Il genere dell'alunno , , influenza in qualche altro modo direttamente un altro alunno ( )? Hmm, ci sono combattimenti di teorie educative se ricordo la questione. Quindi , se si assume che lo fa non è , poi se ne va un'altra possibile fonte di dipendenza tra osservazioni. Infine, il genere di un alunno influenza direttamente i voti di un altro allievo? se sosteniamo di no, otteniamo un campione indipendente 1 G all'e 1 P 2 , P 3 , . . .Gei1Ge1P2,P3,... (a condizione che tutti gli alunni abbiano lo stesso insegnante).