Sono sinonimi "campione casuale" e "iid variabile casuale"?


18

Ho avuto difficoltà a comprendere il significato di "campione casuale" e di "variabile casuale iid". Ho cercato di scoprire il significato da diverse fonti, ma sono diventato sempre più confuso. Sto postando qui quello che ho provato e ho imparato a conoscere:

Degroot's Probability & Statistics dice:

Campioni casuali / iid / Dimensione del campione: considera una data distribuzione di probabilità sulla linea reale che può essere rappresentata da un pf o un pdf . Si dice che variabili casuali forma un campione casuale da questa distribuzione se queste variabili casuali sono indipendenti e il pf o pdf marginale di ciascuna di esse è . Si dice anche che tali variabili casuali siano indipendenti e identicamente distribuite, abbreviate iid Ci riferiamo al numero n di variabili casuali come dimensione del campione.fn fX1,...,Xnf

Ma uno degli altri libri di statistiche che ho detto:

In un campionamento casuale, garantiamo che ogni singola unità nella popolazione abbia le stesse probabilità (probabilità) di essere selezionata.

Quindi, ho la sensazione che gli iidi siano elementi che costruiscono un campione casuale e la procedura per avere un campione casuale è il campionamento casuale. Ho ragione?

PS: Sono molto confuso su questo argomento, quindi apprezzerò una risposta elaborata. Grazie.


6
La parte dell'indipendenza è molto importante perché possiamo avere un campione in cui tutte le variabili sono identicamente distribuite (hanno la stessa distribuzione marginale) ma non sono indipendenti. Un campione del genere può ancora essere considerato come un campione casuale ma non dell'esperimento di cui pensi sia un campione casuale. Vedere questa domanda .
Dilip Sarwate,

La domanda non sembra avere un senso statistico. Il campione iid e casuale sono concetti chiaramente distinti stabiliti dai letterati.
Subhash C. Davar,

2
@ subhashc.davar Lo sono? Secondo una definizione: "Un campione casuale è una sequenza di variabili casuali indipendenti, identicamente distribuite (IID)". Quindi sembra che iid e il campione casuale siano la stessa cosa? Il paragrafo citato in Probro & Statistics di Degroot dice sostanzialmente lo stesso. Lo trovo confuso perché un "campione" a volte è un individuo o un insieme di individui, e talvolta una sequenza di variabili casuali.
Gary Chang,

@Gary Chang La definizione che hai citato riguarda il pdf. Il campione di variabili casuali è stato popolare nella disciplina della psicometria. Generalmente, viene utilizzato con riferimento alla stima dell'affidabilità o della validità e per un'analisi fattoriale. La psicometria è interessata a stabilire l'equivalenza dei test per un dominio. Il concetto di iid sembra aver origine dall'algebra lineare. Un campione potrebbe provenire da una determinata popolazione di individui e / o da una popolazione di variabili (casuali) a seconda dello scopo di uno studio. Le statistiche attuali sembrano essere state prese in prestito dalla teoria della misurazione.
Subhash C. Davar,

Risposte:


9

Non dici quale sia l'altro libro di statistiche, ma immagino che sia un libro (o una sezione) sul campionamento finito della popolazione .

Quando campionate variabili casuali, ovvero quando considerate un set di n variabili casuali, sapete chese sono indipendenti, f ( x 1 , ... , x n ) = f ( x 1 ) f ( x n ) e distribuito in modo identico, in particolare E ( X i ) = μ e Var ( X i )X1,,Xnnf(x1,,xn)=f(x1)f(xn)E(Xi)=μ per tutti i , quindi: ¯ X = i X iVar(Xi)=σ2i doveσ2è il secondo momento centrale.

X¯=iXin,E(X¯)=μ,Var(X¯)=σ2n
σ2

Il campionamento di una popolazione finita è leggermente diverso. Se la popolazione è di taglia , nel campionamento senza sostituzione ci sono ( NN possibili campionisidi dimensionene sono equiprobabili: p(si)=1(Nn)sin Ad esempio, seN=5en=3, lo spazio campione è{s1,...,s10={1,3,4}, s 5 ={1,3,5}, s 6

p(si)=1(Nn)i=1,,(Nn)
N=5n=3 e i possibili campioni sono: s 1 = { 1 , 2 , 3 } , s 2 = { 1 , 2 , 4 } , s 3 = { 1 , 2 , 5 } , s 4{S1,...,S10} Se conti il ​​numero di occorrenze di ciascun individuo, puoi vedere che sono sei, cioè che ogni individuo ha la stessa probabilità di essere selezionato (6/10). Così ognisiè un campione casuale secondo la seconda definizione. All'incirca, non è un campione casuale iid perché gli individui non sono variabili casuali: puoi stimare costantementeE[X]con una media campionaria ma non conoscerai mai il suo valore esatto, mapuoiconoscere la media esatta della popolazione sen=N(let ripeto: approssimativamente.)
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},s10={3,4,5}
SioE[X]n=N1

μn<Nμ

y¯s=i=1nyi,E(y¯s)=μ
Var(y¯s)=σ~2n(1nN)
σ~2i=1N(yiy¯)2N1(1n/N)

Questo è un rapido esempio di come un campione casuale iid (variabile casuale) e un campione casuale (popolazione finita) possono differire. L'inferenza statistica riguarda principalmente il campionamento variabile casuale, la teoria del campionamento riguarda il campionamento finito della popolazione.


1e interpretare una serie di lampadine come un campione (variabile casuale). Dì ora che trovi una scatola di 1000 lampadine e desideri conoscere la loro durata media. Puoi selezionare un piccolo set di lampadine (un campione di popolazione finito), ma puoi selezionarle tutte. Se selezioni un piccolo campione, questo non trasforma le lampadine in variabili casuali: la variabile casuale viene generata da te, poiché la scelta tra "tutto" e "un piccolo insieme" dipende da te. Tuttavia, quando una popolazione finita è molto grande (diciamo la popolazione del proprio paese), quando si sceglie "tutto" non è praticabile, la seconda situazione viene gestita meglio come la prima.


1
Cosa intendi con "gli individui non sono variabili casuali?" Whuber ha delle risposte davvero belle qui e qui che usano il campionamento finito della popolazione per spiegare il concetto di una variabile casuale.
jsk,

n=N

n=N

Difensiva? Non hai capito quei link. Come dice Whubner, a) il modello di biglietti in scatola è solo un esempio giocattolo per evitare "questa è roba di livello universitario" si lamenta; b) evita di chiamare "popolazione" i biglietti in una scatola e spiega perché. Quindi non c'è contraddizione . Se uno può capire cosa ha detto Whubner. A proposito, non sono una variabile casuale, vero?
Sergio,

IMHO, ovviamente.
Sergio,

2

Non ti annoierò con definizioni e formule probabilistiche, che puoi facilmente leggere in qualsiasi libro di testo (o qui è un buon punto di partenza)

Basti pensare a questo intuitivamente, campione casuale è un insieme di valori casuali. In generale, ciascuno dei valori può essere distribuito in modo identico o diverso.i.i.d.how

i.i.d

i.i.d.


1

Una variabile casuale di solito scritta X, è una variabile i cui valori possibili sono esiti numerici di un fenomeno casuale. Il fenomeno casuale può produrre risultati che hanno valori numerici catturati dalla variabile casuale - numero di teste in 10 lanci di una moneta o entrate / altezze ecc. In un campione - ma ciò non è necessario.
Più in generale, una variabile casuale è una funzione che mappa i risultati casuali su valori numerici. Ad esempio, ogni giorno può essere soleggiato, nuvoloso o piovoso. Possiamo definire una variabile casuale che assume il valore 1 se è piovoso, 2 se è nuvoloso e 3 se è soleggiato. Il dominio di una variabile casuale è l'insieme dei possibili risultati.
Per stabilire una variabile casuale ci deve essere un processo o un esperimento associato a possibili risultati che non possono essere previsti con certezza.

Veniamo ora alla questione dell'indipendenza. Due variabili casuali sono indipendenti se il valore di una di esse non influisce sul PDF dell'altra. Non rivediamo le nostre previsioni relative alle probabilità di valori diversi di una variabile quando sappiamo qualcosa sull'altra variabile. Pertanto, in caso di indipendenza, i PDF posteriori sono identici ai PDF precedenti. Ad esempio, quando lanciamo ripetutamente una moneta imparziale, le informazioni che abbiamo sull'esito dei 5 lanci precedenti non influenzano la nostra previsione sul lancio attuale, saranno sempre 0,5. Tuttavia, se il bias della moneta è sconosciuto ed è modellato come una variabile casuale, allora il risultato dei 5 lanci precedenti influisce sulle nostre previsioni in merito al lancio attuale perché ci consente di fare inferenze riguardo al bias sconosciuto della moneta.

Veniamo ora al problema del campionamento. Lo scopo del campionamento è di informarci sulle proprietà di una distribuzione sottostante che non è nota e deve essere dedotta. Ricorda che una distribuzione si riferisce alla probabilità relativa di possibili esiti nello spazio campione (che può anche essere un universo condizionale). Quindi, quando campioniamo, scegliamo un numero finito di risultati dallo spazio Campione e riproduciamo lo Spazio Campione in una scala più piccola e più gestibile. La pari probabilità si riferisce quindi al processo di campionamento e non alla probabilità degli esiti nel campione. Il campionamento delle pari probabilità implica che il campione rifletterà le proporzioni dei risultati nello spazio campione originale. Ad esempio, se chiediamo 10, 000 persone se fossero mai stati arrestati, è probabile che il campione che finiremo non sarà rappresentativo della popolazione - lo spazio del campione - poiché le persone che sarebbero state arrestate potrebbero rifiutare di rispondere, quindi la proporzione di possibili esiti (arrestato - non arrestato) differirà tra il nostro campione e la popolazione per motivi sistematici. O se abbiamo scelto un particolare quartiere per condurre un sondaggio i risultati non saranno rappresentativi della Città nel suo insieme. Quindi un campionamento di uguale probabilità implica che non vi siano ragioni sistematiche - oltre alla pura casualità - che ci faccia credere che le proporzioni dei possibili risultati nel nostro campione siano diverse dalle proporzioni dei risultati nello Spazio Popolazione / Campione. pertanto la proporzione di possibili esiti (arrestati - non arrestati) differirà tra il nostro campione e la popolazione per motivi sistematici. O se abbiamo scelto un particolare quartiere per condurre un sondaggio i risultati non saranno rappresentativi della Città nel suo insieme. Quindi un campionamento di uguale probabilità implica che non vi siano ragioni sistematiche - oltre alla pura casualità - che ci faccia credere che le proporzioni dei possibili risultati nel nostro campione siano diverse dalle proporzioni dei risultati nello Spazio Popolazione / Campione. pertanto la proporzione di possibili esiti (arrestati - non arrestati) differirà tra il nostro campione e la popolazione per motivi sistematici. O se abbiamo scelto un particolare quartiere per condurre un sondaggio i risultati non saranno rappresentativi della Città nel suo insieme. Quindi un campionamento di uguale probabilità implica che non vi siano ragioni sistematiche - oltre alla pura casualità - che ci faccia credere che le proporzioni dei possibili risultati nel nostro campione siano diverse dalle proporzioni dei risultati nello Spazio Popolazione / Campione.


-2

Un campione casuale è la realizzazione di una sequenza di variabili casuali. Quelle variabili casuali possono essere ignorate o no.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.