Che cosa significa "osservazioni indipendenti"?


28

Sto cercando di capire cosa significhi l' assunzione di osservazioni indipendenti . Alcune definizioni sono:

  1. "Due eventi sono indipendenti se e solo se ." ( Dizionario dei termini statistici )P(ab)=P(a)P(b)
  2. "il verificarsi di un evento non cambia la probabilità per un altro" ( Wikipedia ).
  3. "Il campionamento di un'osservazione non influisce sulla scelta della seconda osservazione" ( David M. Lane ).

Un esempio di osservazioni dipendenti spesso fornite sono gli studenti nidificati all'interno degli insegnanti come di seguito. Supponiamo che gli insegnanti influenzino gli studenti ma gli studenti non si influenzino a vicenda.

Quindi, come vengono violate queste definizioni per questi dati? Il campionamento [voto = 7] per [studente = 1] non influenza la distribuzione di probabilità per il voto che verrà campionato successivamente. (O lo fa? E se è così, allora cosa prevede l'osservazione 1 riguardo alla prossima osservazione?)

Perché le osservazioni sarebbero indipendenti se avessi misurato gender anziché teacher_id? Non influenzano le osservazioni allo stesso modo?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

4
Si potrebbe suggerire che la distribuzione dei voti per l'insegnante 1 avesse un valore "medio" più basso rispetto all'insegnante 2 e quindi gli studenti dell'insegnante 1 tendessero tutti ad avere voti più bassi, in media, rispetto agli studenti dell'insegnante 2. In altre parole , la distribuzione di studenti / voti per i due insegnanti potrebbe ben essere distribuzioni diverse. Ciò sarebbe sufficiente per rendere dipendenti le osservazioni.
Ripristina Monica - G. Simpson,

1
@GavinSimpson: ho pensato a questo esatto ragionamento. Tuttavia, cosa succede se lo sostituisco teachercon gender? Il genere è presente nella maggior parte dei dati delle scienze sociali e si correla con quasi tutto in una certa misura.
RubenGeert,

1
Deve sicuramente dipendere dalla risposta. Se osservassimo i gradi di studenti di scienze nel Regno Unito, forse ci sarebbe un effetto con diverse distribuzioni di risultati per i due sessi, in media rispetto alle popolazioni che stai studiando. Ad ogni modo, tutto ciò conta solo (in un modello statistico) per i residui, o in modo diverso per le risposte condizionate dal modello adattato. In altre parole, se le osservazioni non sono indipendenti, va bene finché il modello tiene conto di ciò in modo tale che i residui siano indipendenti.
Ripristina Monica - G. Simpson,

4
Non puoi prendere (1) o (2) come definizioni di indipendenza (statistica), poiché l'indipendenza può essere definita senza riferimento alla causalità. Tutte e tre le citazioni sono solo sforzi per fornire esempi informali e intuitivi . ((3) probabilmente potrebbe essere preso come una definizione a condizione che tu abbia accesso a una definizione quantitativa e rigorosa della quantità di informazioni.) Sarebbe quindi una buona idea fare riferimento a una definizione reale come quelle che appaiono sotto la voce "Definizione" nell'articolo di Wikipedia che fai riferimento.
whuber

1
No, puoi rendere indipendenti i residui (o almeno ridurre la dipendenza in modo tale che i residui appaiano indipendenti). Ciò deriva dalle ipotesi del modello lineare; dove è una matrice di correlazione. Il presupposto abituale è che è una matrice di identità, quindi le off-diagonali sono zero e quindi il presupposto dell'indipendenza è sui residui. Detto in altro modo, questa è un'affermazione su subordinata al modello adattato. Λ Λ yεN(0,σ2Λ)ΛΛy
Ripristina Monica - G. Simpson,

Risposte:


11

Nella teoria della probabilità, l'indipendenza statistica (che non è la stessa dell'indipendenza causale) è definita come proprietà (3), ma (1) segue come conseguenza . Si dice che gli eventi e siano statisticamente indipendenti se e solo se:AB

P(AB)=P(A)P(B).

Se allora se segue che:P(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

Ciò significa che l'indipendenza statistica implica che il verificarsi di un evento non influisce sulla probabilità dell'altro. Un altro modo di dire questo è che il verificarsi di un evento non dovrebbe cambiare le tue convinzioni sull'altro. Il concetto di indipendenza statistica è generalmente esteso dagli eventi alle variabili casuali in un modo che consente di fare affermazioni analoghe per variabili casuali, comprese le variabili casuali continue (che hanno probabilità zero di qualsiasi risultato particolare). Il trattamento dell'indipendenza per variabili casuali implica sostanzialmente le stesse definizioni applicate alle funzioni di distribuzione.


È fondamentale capire che l' indipendenza è una proprietà molto forte - se gli eventi sono statisticamente indipendenti allora (per definizione) non possiamo imparare l'uno dall'osservare l'altro. Per questo motivo, i modelli statistici generalmente implicano ipotesi di indipendenza condizionale , dati alcuni parametri o distribuzione sottostanti. L'esatto quadro concettuale dipende dal fatto che si stiano usando metodi bayesiani o metodi classici. Il primo implica una dipendenza esplicita tra valori osservabili, mentre il secondo implica una forma implicita (complicata e sottile) di dipendenza. Comprendere correttamente questo problema richiede un po 'di comprensione delle statistiche classiche rispetto a quelle bayesiane.

I modelli statistici spesso affermano che usano un presupposto che le sequenze di variabili casuali sono "indipendenti e identicamente distribuite (IID)". Ad esempio, potresti avere una sequenza osservabile , il che significa che ogni variabile casuale osservabile è normalmente distribuita con media e deviazione standardX1,X2,X3,...IID N(μ,σ2)Xiμσ. Ciascuna delle variabili casuali nella sequenza è "indipendente" dalle altre, nel senso che il suo esito non cambia la distribuzione dichiarata degli altri valori. In questo tipo di modello utilizziamo i valori osservati della sequenza per stimare i parametri nel modello e possiamo quindi prevedere i valori non osservati della sequenza. Ciò comporta necessariamente l'utilizzo di alcuni valori osservati per conoscere altri.

Statistiche bayesiane: tutto è concettualmente semplice. Supponiamo che siano condizionatamente IID dati i parametri e e trattate quei parametri sconosciuti come variabili casuali. Data qualsiasi distribuzione non degenerata precedente per questi parametri, i valori nella sequenza osservabile sono (incondizionatamente) dipendenti, generalmente con correlazione positiva. Quindi, ha perfettamente senso che usiamo i risultati osservati per prevedere risultati non osservati in seguito - sono condizionatamente indipendenti, ma dipendenti incondizionatamente.X1,X2,X3,...μσ

Statistiche classiche: è abbastanza complicato e sottile. Supponiamo che siano IID dati i parametri e , ma trattano questi parametri come "costanti sconosciute". Poiché i parametri sono trattati come costanti, in questo caso non esiste una chiara differenza tra indipendenza condizionale e incondizionata. Tuttavia, utilizziamo ancora i valori osservati per stimare i parametri e fare previsioni sui valori non osservati. Pertanto, utilizziamo i risultati osservati per prevedere risultati non osservati in seguito, anche se sono teoricamente "indipendenti" l'uno dall'altro. Questa apparente incongruenza è discussa in dettaglio in O'Neill, B. (2009) Scambiabilità, correlazione ed effetto di Bayes. X1,X2,X3,...μσRevisione statistica internazionale 77 (2) , pagg. 241 - 250 .


Applicando questo ai dati dei voti dei tuoi studenti, probabilmente modelleresti qualcosa del genere supponendo che gradesia dato condizionalmente indipendenteteacher_id . Utilizzeresti i dati per fare inferenze sulla distribuzione dei voti per ciascun insegnante (che non si presume essere lo stesso) e questo ti permetterebbe di fare previsioni sull'ignoto gradedi un altro studente. Poiché la gradevariabile viene utilizzata nell'inferenza, influirà sulle previsioni di qualsiasi gradevariabile sconosciuta per un altro studente. La sostituzione teacher_idcon gendernon cambia questo; in entrambi i casi hai una variabile che potresti usare come predittore di grade.

Se usi il metodo bayesiano avrai un'assunzione esplicita di indipendenza condizionale e una distribuzione precedente per le distribuzioni dei voti degli insegnanti, e questo porta a una dipendenza incondizionata (predittiva) dei voti, permettendoti di usare razionalmente un voto nella tua previsione di un altro. Se si utilizzano le statistiche classiche si avrà un'ipotesi di indipendenza (basata su parametri che sono "costanti sconosciute") e si useranno metodi di previsione statistica classici che consentono di utilizzare un grado per prevederne un altro.


Ci sono alcune presentazioni fondamentali della teoria della probabilità che definiscono l'indipendenza attraverso la dichiarazione di probabilità condizionale e quindi danno la dichiarazione di probabilità congiunta come conseguenza. Questo è meno comune.


6
L'indipendenza statistica è molto quella che descrivi nella prima parte della tua risposta. Ma la tua frase "... se gli eventi sono statisticamente indipendenti, allora (per definizione) non possiamo imparare l'uno dall'osservare l'altro". è palesemente sbagliato. Il mondo è pieno di eventi statisticamente indipendenti ma simili e variabili casuali.
Alecos Papadopoulos,

1
"Imparare" non significherebbe cambiare le nostre convinzioni su una cosa basata sull'osservazione di un'altra? In tal caso, l'indipendenza (per definizione) non lo preclude?
Ripristina Monica il

6
Stavo per fare un commento simile a quello di @Alecos. L'impressione generale che si ottiene è che si sta affermando che l'osservazione di una realizzazione di una variabile casuale non ci dice nulla sulla sua distribuzione , quindi non è possibile prevedere nulla su una seconda realizzazione indipendente. Se così fosse, la maggior parte della teoria del campionamento e della stima sarebbe impossibile da sviluppare. Ma hai ragione nel senso che se conosciamo e osserviamo una realizzazione, ciò non ci fornisce ulteriori informazioni su qualsiasi altra realizzazione indipendente . FF
whuber

4
Credo che il problema qui è che il modello di serie con IID distribuzione è implicitamente utilizzando un'assunzione di condizionale l'indipendenza data la conoscenza di . In base alla conoscenza di , le osservazioni sono indipendenti, ma incondizionatamente si ha una situazione in cui ogni osservazione fornisce informazioni su , che quindi influenza le tue convinzioni sulle altre osservazioni. FFFF
Ripristina Monica il

2
La difficoltà in questo problema è che le statistiche classiche trattano la distribuzione e i parametri sottostanti come "costanti sconosciute" e quindi non fanno alcuna distinzione esplicita tra indipendenza condizionale o incondizionata, in questo caso. Nelle statistiche bayesiane, è tutto molto semplice.
Ripristina Monica il

4

Consentiamo a di un vettore casuale dimensionale, ovvero una raccolta di variabili casuali a posizione fissa (funzioni reali misurabili).x=(X1,...,Xj,...,Xk)k

Considera molti di questi vettori, come , e indicizza questi vettori con , quindi, diciamoni=1,...,n

xi=(X1i,...,Xji,...,Xki)
e considerali come una raccolta chiamata "il campione", . Quindi chiamiamo ogni vettore dimensionale una "osservazione" (sebbene diventi realmente una sola volta che misuriamo e registriamo le realizzazioni delle variabili casuali coinvolte).S=(x1,...,xi,...,xn)k

Per prima cosa trattiamo il caso in cui esiste una funzione di massa di probabilità (PMF) o una funzione di densità di probabilità (PDF) e congiungiamo anche tali funzioni. Indicare con il PMF congiunto o il PDF congiunto di ciascun vettore casuale e il PMF congiunto o il PDF congiunto di tutti questi vettori insieme. fi(xi),i=1,...,nf(x1,...,xi,...,xn)

Quindi, il campione viene chiamato "campione indipendente", se vale la seguente uguaglianza matematica:S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

dove è il dominio congiunto creato da vettori / osservazioni casuali. nDSn

Ciò significa che le "osservazioni" sono "congiuntamente indipendenti", (in senso statistico, o "indipendenti nella probabilità", come era il vecchio detto che si vede ancora oggi a volte). L'abitudine è semplicemente chiamarli "osservazioni indipendenti".

Si noti che la proprietà dell'indipendenza statistica qui è sopra l'indice , cioè tra le osservazioni. Non è correlato a quali siano le relazioni probabilistiche / statistiche tra le variabili casuali in ciascuna osservazione (nel caso generale trattiamo qui dove ogni osservazione è multidimensionale).i

Si noti inoltre che nei casi in cui abbiamo variabili casuali continue senza densità, quanto sopra può essere espresso in termini di funzioni di distribuzione.

Questo è ciò che "osservazioni indipendenti" mezzi . È una proprietà definita con precisione espressa in termini matematici. Vediamo alcune delle implicazioni .

ALCUNE CONSEGUENZE DI AVERE OSSERVAZIONI INDIPENDENTI

A. Se due osservazioni fanno parte di un gruppo di osservazioni congiuntamente indipendenti, allora sono anche "indipendenti dalla coppia" (statisticamente),

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

Ciò a sua volta implica che i PMF / PDF condizionali sono uguali a quelli "marginali"

f(xixm)=fi(xi)im,i,m=1,...,n

Questo generalizza molti argomenti, condizionati o condizionanti, diciamo

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

ecc., purché gli indici a sinistra siano diversi dagli indici a destra della linea verticale.

Ciò implica che se osserviamo effettivamente un'osservazione, le probabilità che caratterizzano qualsiasi altra osservazione del campione non cambiano. Per quanto riguarda la previsione , un campione indipendente non è il nostro migliore amico. Preferiremmo avere dipendenza in modo che ogni osservazione potesse aiutarci a dire qualcosa in più su qualsiasi altra osservazione.

B. D'altra parte, un campione indipendente ha il massimo contenuto informativo. Ogni osservazione, essendo indipendente, porta informazioni che non possono essere dedotte, in tutto o in parte, da qualsiasi altra osservazione nel campione. Quindi la somma totale è massima, rispetto a qualsiasi campione comparabile in cui esiste una dipendenza statistica tra alcune delle osservazioni. Ma a che servono queste informazioni, se non possono aiutarci a migliorare le nostre previsioni?

Bene, si tratta di informazioni indirette sulle probabilità che caratterizzano le variabili casuali nel campione. Più queste osservazioni hanno caratteristiche comuni (distribuzione della probabilità comune nel nostro caso), più siamo in una posizione migliore per scoprirle, se il nostro campione è indipendente.

In altre parole se il campione è indipendente e "identicamente distribuito", significa

fi(xi)=fm(xm)=f(x),im

è il miglior esempio possibile per ottenere informazioni non solo sulla distribuzione comune di probabilità comune , ma anche per le distribuzioni marginali delle variabili casuali che compongono ciascuna osservazione, diciamo . f(x)fj(xji)

Quindi anche se , quindi zero ulteriore potere predittivo per quanto riguarda l'effettiva realizzazione di , con un campione indipendente e identicamente distribuito, siamo nel migliore posizione per scoprire le funzioni (o alcune delle sue proprietà), ovvero le distribuzioni marginali.f(xixm)=fi(xi)xi fi

Pertanto, per quanto riguarda la stima (che a volte viene utilizzata come termine generico, ma qui dovrebbe essere mantenuta distinta dal concetto di previsione ), un campione indipendente è il nostro "migliore amico", se combinato con il "identicamente distribuito " proprietà.

C. Ne consegue anche che un campione indipendente di osservazioni in cui ciascuna è caratterizzata da una distribuzione di probabilità totalmente diversa, senza caratteristiche comuni di sorta, è una raccolta di informazioni inutile quanto si può ottenere (ovviamente ogni informazione da sola è degno, il problema qui è che nel loro insieme questi non possono essere combinati per offrire qualcosa di utile). Immagina un campione contenente tre osservazioni: una contenente (caratteristiche quantitative di) frutti provenienti dal Sud America, un'altra contenente montagne d'Europa e una terza contenente abiti provenienti dall'Asia. Informazioni piuttosto interessanti tutte e tre, ma insieme come esempio non possono fare nulla di statisticamente utile per noi.

In altre parole, condizione necessaria e sufficiente per rendere utile un campione indipendente, è che le osservazioni hanno alcune caratteristiche statistiche in comune. Questo è il motivo per cui, in Statistica, la parola "campione" non è sinonimo di "raccolta di informazioni" in generale, ma di "raccolta di informazioni su entità che presentano alcune caratteristiche comuni".

APPLICAZIONE ALL'ESEMPIO DI DATI DELL'OP

Rispondendo a una richiesta dell'utente @gung, esaminiamo l'esempio dell'OP alla luce di quanto sopra. Supponiamo ragionevolmente che siamo in una scuola con più di due insegnanti e più di sei alunni. Quindi a) stiamo campionando sia gli alunni che gli insegnanti, e b) includiamo nel nostro set di dati il ​​voto corrispondente a ciascuna combinazione insegnante-alunno.

Vale a dire, i voti non sono "campionati", sono una conseguenza del campionamento che abbiamo fatto su insegnanti e alunni. Pertanto è ragionevole trattare la variabile casuale (= grado) come "variabile dipendente", mentre gli alunni ( ) e gli insegnanti sono "variabili esplicative" (non tutte le possibili variabili esplicative, solo alcune ). Il nostro esempio è costituito da sei osservazioni che scriviamo esplicitamente, comeGPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

Partendo dal presupposto dichiarato "gli alunni non si influenzano a vicenda", possiamo considerare le variabili come distribuite indipendentemente. dal presupposto non dichiarato che "tutti gli altri fattori" che possono influenzare il Grado sono indipendenti l'uno dall'altro, possiamo anche considerare le variabili indipendenti l'una dall'altra. Infine, partendo dal presupposto non dichiarato che gli insegnanti non si influenzano a vicenda, possiamo considerare le variabili come statisticamente indipendenti tra loro.PiGi
T1,T2

Ma indipendentemente da quale ipotesi causale / strutturale faremo riguardo alla relazione tra insegnanti e alunni , resta il fatto che le osservazioni contengono la stessa variabile casuale ( ), mentre osservazioni contiene anche la stessa variabile casuale ( ). s1,s2,s3s 4 , s 5 , s 6 T 2T1s4,s5,s6T2

Nota attentamente la distinzione tra "la stessa variabile casuale" e "due distinte variabili casuali che hanno distribuzioni identiche".

Quindi, anche se assumiamo che "gli insegnanti NON influenzino gli alunni", tuttavia, il nostro campione come definito sopra non è un campione indipendente, poiché sono statisticamente dipendenti da , mentre sono statisticamente dipendenti da . T 1 s 4 , s 5 , s 6s1,s2,s3T1s4,s5,s6T2

Supponiamo ora di escludere la variabile casuale "insegnante" dal nostro campione. Il campione (Pupilla, Grado) di sei osservazioni, è un campione indipendente? Qui, le ipotesi che faremo riguardo alla relazione strutturale tra insegnanti, alunni e voti sono importanti.

In primo luogo, gli insegnanti influenzano direttamente la variabile casuale "Grado", forse attraverso diversi "atteggiamenti / stili di classificazione"? Ad esempio potrebbe essere un "selezionatore difficile" mentre potrebbe non esserlo. In tal caso "non vedere" la variabile "Insegnante" non rende il campione indipendente, perché ora sono che dipendono, a causa di una comune fonte di influenza, (e analogamente per gli altri tre ). T1T2G1,G2,G3T1

Ma dire che gli insegnanti sono identici in questo senso. Quindi, sotto il presupposto dichiarato "gli insegnanti influenzano gli studenti", abbiamo ancora una volta che le prime tre osservazioni sono dipendenti l'una dall'altra, perché gli insegnanti influenzano gli alunni che influenzano i voti e arriviamo allo stesso risultato, anche se indirettamente in questo caso (e allo stesso modo per il altri tre). Quindi, di nuovo, il campione non è indipendente.

IL CASO DEL GENERE

Ora, rendiamo il campione di sei osservazioni (Pupilla, Grado) "condizionatamente indipendente rispetto all'insegnante" (vedi altre risposte) assumendo che tutti e sei gli alunni abbiano in realtà lo stesso insegnante. Inoltre, includiamo nel campione la variabile casuale " = Gender" che tradizionalmente prende due valori ( ), mentre recentemente ha iniziato a prenderne di più. Il nostro campione di sei osservazioni tridimensionale ancora una volta è oraGeM,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

Nota attentamente che ciò che abbiamo incluso nella descrizione del campione per quanto riguarda il genere, non è il valore effettivo che prende per ogni alunno, ma la variabile casuale "Genere" . Guarda indietro all'inizio di questa lunghissima risposta: il campione non è definito come una raccolta di numeri (o valori numerici fissi o non in generale), ma come una raccolta di variabili casuali (cioè di funzioni).

Ora, il genere di un alunno influenza (strutturalmente o statisticamente) il genere di un altro alunno? Potremmo ragionevolmente sostenere che non lo sia. Quindi da questo punto di vista, le variabili sono indipendenti. Il genere dell'alunno , , influenza in qualche altro modo direttamente un altro alunno ( )? Hmm, ci sono combattimenti di teorie educative se ricordo la questione. Quindi , se si assume che lo fa non è , poi se ne va un'altra possibile fonte di dipendenza tra osservazioni. Infine, il genere di un alunno influenza direttamente i voti di un altro allievo? se sosteniamo di no, otteniamo un campione indipendente 1 G all'e 1 P 2 , P 3 , . . .Gei1Ge1P2,P3,... (a condizione che tutti gli alunni abbiano lo stesso insegnante).


Non sono d'accordo nel tuo punto B. Per alcuni scopi, come stimare una media, la correlazione negativa è meglio dell'indipendenza.
kjetil b halvorsen,

@kjetil Meglio in che senso?
Alecos Papadopoulos,

Sarebbe utile se si potesse collegare concretamente questo alle domande del PO nel testo. Detto questo, come possiamo capire che le osservazioni elencate non sono indipendenti? e in cosa differisce il lasciare l'insegnante dal tralasciare il sesso?
gung - Ripristina Monica

@gung Ho incluso qualche elaborazione secondo le linee che hai suggerito.
Alecos Papadopoulos,

Meglio nel senso di ridurre la varianza
kjetil b halvorsen

2

Le definizioni di indipendenza statistica che date nel tuo post sono tutti essenzialmente corretta, ma non ottengono al cuore dell'indipendenza ipotesi in un modello statistico . Per capire cosa intendiamo per assunzione di osservazioni indipendenti in un modello statistico, sarà utile rivisitare ciò che un modello statistico è a livello concettuale.

Modelli statistici come approssimazioni ai "dadi della natura"

Facciamo un esempio familiare: raccogliamo un campione casuale di umani adulti (da una popolazione ben definita - diciamo, tutti gli umani adulti sulla terra) e misuriamo le loro altezze. Desideriamo stimare l'altezza media della popolazione degli umani adulti. Per fare ciò, costruiamo un semplice modello statistico ipotizzando che le altezze delle persone derivino da una distribuzione normale.

Il nostro modello sarà valido se una distribuzione normale fornisce una buona approssimazione al modo in cui la natura "sceglie" le altezze per le persone. Cioè, se simuliamo i dati secondo il nostro modello normale, il set di dati risultante assomiglia molto (in senso statistico) a ciò che osserviamo in natura? Nel contesto del nostro modello, il nostro generatore di numeri casuali fornisce una buona simulazione del complicato processo stocastico che la natura utilizza per determinare le altezze degli adulti umani selezionati casualmente ("dadi della natura")?

L'assunzione dell'indipendenza in un semplice contesto di modellistica

Quando abbiamo ipotizzato di poter approssimare i "dadi della natura" tracciando numeri casuali da una distribuzione normale, non intendevamo che trarremmo un singolo numero dalla distribuzione normale e quindi assegneremo l'altezza a tutti. Volevamo dire che avremmo disegnato indipendentemente numeri per tutti dalla stessa distribuzione normale. Questa è la nostra ipotesi di indipendenza.

Immagina ora che il nostro campione di adulti non fosse un campione casuale, ma provenisse invece da una manciata di famiglie. L'altezza corre in alcune famiglie e la mancanza in altre. Abbiamo già detto che siamo disposti ad assumere che le altezze di tutti gli adulti provengano da una distribuzione normale. Ma il campionamento dalla distribuzione normale non fornirebbe un set di dati che assomiglia molto al nostro campione (il nostro campione mostrerebbe "gruppi" di punti, alcuni brevi, altri alti - ogni gruppo è una famiglia). Le altezze delle persone nel nostro campione non sono estrazioni indipendenti dalla distribuzione normale generale.

L'assunto di indipendenza in un contesto di modellistica più complicato

Ma non tutto è perduto! Potremmo essere in grado di scrivere un modello migliore per il nostro campione, uno che preservi l'indipendenza delle altezze. Ad esempio, potremmo scrivere un modello lineare in cui le altezze derivano da una distribuzione normale con una media che dipende dalla famiglia a cui appartiene il soggetto. In questo contesto, la distribuzione normale descrive la variazione residua , DOPO tenere conto dell'influenza della famiglia. E campioni indipendenti da una distribuzione normale potrebbero essere un buon modello per questa variazione residua.

Nel complesso qui, quello che abbiamo fatto è stato scrivere un modello più sofisticato di come ci aspettiamo che i dadi della natura si comportino nel contesto del nostro studio. Scrivendo un buon modello, potremmo ancora essere giustificati nel ritenere che la parte casuale del modello (cioè la variazione casuale attorno alla famiglia) sia campionata indipendentemente per ciascun membro della popolazione.

Il presupposto (condizionale) dell'indipendenza in un contesto generale di modellistica

In generale, i modelli statistici funzionano ipotizzando che i dati derivino da una certa distribuzione di probabilità. I parametri di quella distribuzione (come la media della distribuzione normale nell'esempio sopra) potrebbero dipendere dalle covariate (come la famiglia nell'esempio sopra). Ma ovviamente sono possibili infinite variazioni. La distribuzione potrebbe non essere normale, il parametro che dipende dalle covariate potrebbe non essere la media, la forma della dipendenza potrebbe non essere lineare, ecc. TUTTI questi modelli si basano sul presupposto che forniscono un'approssimazione ragionevolmente buona di come i dadi della natura comportarsi (di nuovo, i dati simulati sotto il modello appariranno statisticamente simili ai dati reali ottenuti dalla natura).

Quando simuliamo i dati nell'ambito del modello, il passaggio finale sarà sempre quello di disegnare un numero casuale in base a una distribuzione della probabilità modellata. Questi sono i disegni che riteniamo indipendenti l'uno dall'altro. I dati effettivi che otteniamo potrebbero non sembrare indipendenti, poiché le covariate o altre caratteristiche del modello potrebbero dirci di utilizzare diverse distribuzioni di probabilità per diversi disegni (o serie di disegni). Ma tutte queste informazioni devono essere integrate nel modello stesso. Non è consentito lasciare che il sorteggio del numero finale casuale dipenda da quali valori abbiamo disegnato per altri punti dati. Pertanto, gli eventi che devono essere indipendenti sono i tiri di "dadi della natura" nel contesto del nostro modello.

È utile riferirsi a questa situazione come indipendenza condizionale , il che significa che i punti dati sono indipendenti l'uno dall'altro dato (cioè condizionato) alle covariate. Nel nostro esempio di altezza, supponiamo che la mia altezza e l'altezza di mio fratello condizionate sulla mia famiglia siano indipendenti l'una dall'altra, e siano anche indipendenti dalla tua altezza e dall'altezza di tua sorella condizionata dalla tua famiglia. Una volta che conosciamo la famiglia di qualcuno, sappiamo da quale distribuzione normale attingere per simulare la sua altezza, e le estrazioni per diversi individui sono indipendenti indipendentemente dalla loro famiglia (anche se la nostra scelta di quale distribuzione normale attingere dipende dalla famiglia). È anche possibile che, anche dopo aver affrontato la struttura familiare dei nostri dati, non otteniamo ancora una buona indipendenza condizionale (forse è anche importante modellare il genere, ad esempio).

In definitiva, se ha senso assumere l' indipendenza condizionale delle osservazioni è una decisione che deve essere presa nel contesto di un modello particolare. Questo è il motivo per cui, ad esempio, nella regressione lineare, non controlliamo che i dati provengano da una distribuzione normale, ma controlliamo che i RESIDUI provengano da una distribuzione normale (e dalla stessa distribuzione SAME su tutta la gamma dell'intero dati). La regressione lineare presuppone che, dopo aver tenuto conto dell'influenza delle covariate (la linea di regressione), i dati siano campionati indipendentemente da una distribuzione normale, secondo la rigorosa definizione di indipendenza nel post originale.

Nel contesto del tuo esempio

"Insegnante" nei tuoi dati potrebbe essere come "famiglia" nell'esempio di altezza.

Un giro finale su di esso

Molti modelli familiari presuppongono che i residui derivino da una distribuzione normale. Immagina di averti fornito alcuni dati che chiaramente NON erano normali. Forse sono fortemente distorti, o forse sono bimodali. E ti ho detto "questi dati provengono da una distribuzione normale".

"Assolutamente no" dici "È ovvio che quelli non sono normali!"

"Chi ha detto qualcosa sui dati come normali?" Dico. "Ho solo detto che provengono da una distribuzione normale."

"Uno nella stessa!" tu dici. "Sappiamo che un istogramma di un campione ragionevolmente grande da una distribuzione normale tenderà ad apparire approssimativamente normale!"

"Ma", dico, "non ho mai detto che i dati sono stati campionati indipendentemente dalla distribuzione normale. I DO provengono da una distribuzione normale, ma non sono estrazioni indipendenti."

L'ipotesi di indipendenza (condizionale) nella modellistica statistica serve a impedire che gli smart-alecks come me ignorino la distribuzione dei residui e applichino erroneamente il modello.

Due note finali

1) Il termine "dadi della natura" non è mio in origine, ma nonostante abbia consultato un paio di riferimenti non riesco a capire dove l'ho preso in questo contesto.

2) Alcuni modelli statistici (ad esempio modelli autoregressivi) non richiedono l'indipendenza delle osservazioni in questo modo. In particolare, consentono alla distribuzione campionaria di una determinata osservazione di dipendere non solo dalle covariate fisse, ma anche dai dati che le hanno precedute.


Grazie per questo. Mi piace che sia messo in un modo molto accessibile. Affronti il ​​problema di come ciò si svolge per l'insegnante, puoi estendere la discussione per affrontare anche l'idea del sesso come covariata?
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.