Qual è la differenza tra una popolazione e un campione?

38

Qual è la differenza tra una popolazione e un campione? Quali variabili e statistiche comuni vengono utilizzate per ognuna e in che modo si relazionano tra loro?

— Baltimark
fonte

1

Lettura obbligatoria: Krieger, N. (2012). Chi e che cos'è una "popolazione"? Dibattiti storici, attuali controversie e implicazioni per la comprensione della "salute della popolazione" e la correzione delle disuguaglianze sanitarie . The Milbank Quarterly , 90 (4): 634–681.

— Alexis,

36

La popolazione è l'insieme di entità allo studio. Ad esempio, l'altezza media degli uomini. Questa è una popolazione ipotetica perché include tutti gli uomini che hanno vissuto, sono vivi e vivranno in futuro. Mi piace questo esempio perché porta a casa il punto in cui, come analisti, scegliamo la popolazione che desideriamo studiare. In genere è impossibile rilevare / misurare l'intera popolazione perché non tutti i membri sono osservabili (ad esempio uomini che esisteranno in futuro). Se è possibile elencare l'intera popolazione è spesso costoso farlo e richiederebbe molto tempo. Nell'esempio sopra abbiamo una popolazione "uomini" e un parametro di interesse, la loro altezza.

Invece, potremmo prendere un sottoinsieme di questa popolazione chiamato campione e usare questo campione per trarre inferenze sulla popolazione studiata, date alcune condizioni. Quindi potremmo misurare l'altezza media degli uomini in un campione della popolazione che chiamiamo statistica e usarla per trarre inferenze sul parametro di interesse nella popolazione. È un'inferenza perché ci saranno alcune incertezze e imprecisioni nel trarre conclusioni sulla popolazione sulla base di un campione. Questo dovrebbe essere ovvio: nel nostro campione abbiamo meno membri della nostra popolazione, quindi abbiamo perso alcune informazioni.

Esistono molti modi per selezionare un campione e lo studio di questo è chiamato teoria del campionamento. Un metodo comunemente usato si chiama Simple Random Sampling (SRS). In SRS ogni membro della popolazione ha la stessa probabilità di essere incluso nel campione, da cui il termine "casuale". Esistono molti altri metodi di campionamento, ad esempio campionamento stratificato, campionamento di cluster, ecc., Che presentano tutti i loro vantaggi e svantaggi.

È importante ricordare che il campione che preleviamo dalla popolazione è solo uno da un gran numero di potenziali campioni. Se dieci ricercatori studiassero tutti la stessa popolazione, tracciando i propri campioni, potrebbero ottenere risposte diverse. Tornando al nostro esempio precedente, ciascuno dei dieci ricercatori può trovare una diversa altezza media degli uomini, cioè la statistica in questione (altezza media) varia da campione a campione - ha una distribuzione chiamata distribuzione campionaria. Possiamo usare questa distribuzione per comprendere l'incertezza nella nostra stima del parametro di popolazione.

La distribuzione di campionamento della media del campione è nota per essere una distribuzione normale con una deviazione standard uguale alla deviazione standard del campione divisa per la dimensione del campione. Poiché ciò potrebbe facilmente essere confuso con la deviazione standard del campione, è più comune chiamare la deviazione standard della distribuzione campionaria l' errore standard .

— Graham Cookson
fonte

7

Non è un po 'inutile usare "tutti gli uomini" come popolazione? Voglio dire, non c'è nemmeno un consenso su quanti anni abbia l' homo sapiens , o se l' homo neanderthalensis fosse una specie separata, figuriamoci se i maschi dello strumento di pietra che usano l' homo habilis contano come "uomini". Presumibilmente gli stessi problemi affronteranno anche noi in futuro.

— nulla101

Nell'ultimo paragrafo, penso che ci sia una lieve leggera mano e dovrebbe leggere ... "uguale alla deviazione standard del campione divisa per la [radice quadrata] della dimensione del campione" in riferimento all'errore standard .

— Antoni Parellada,

13

La popolazione è l'intero insieme di valori o individui a cui sei interessato. Il campione è un sottoinsieme della popolazione ed è l'insieme di valori che usi effettivamente nella tua stima.

Quindi, per esempio, se vuoi conoscere l'altezza media dei residenti in Cina, quella è la tua popolazione, cioè la popolazione della Cina. Il fatto è che questo è un numero abbastanza grande e non saresti in grado di ottenere dati per tutti lì. Quindi disegni un campione, cioè ottieni alcune osservazioni, o l'altezza di alcune persone in Cina (un sottoinsieme della popolazione, il campione) e fai la tua deduzione sulla base di questo.

— Vivi
fonte

Buona risposta. Penso che dovresti approfondire ciò che intendi con "fai la tua deduzione basata su quello". È una specie della seconda parte della mia domanda.

— Baltimark,

mmm ... Non ho davvero capito cosa intendevi con quali variabili e statistiche comuni ... Oh, vuoi dire che usi la distribuzione z se hai la varianza della popolazione e la distribuzione t se hai solo la varianza del campione e la dimensione del campione è piccola? Qualcosa del genere?

— Vivi,

Quello a cui stavo arrivando era che la media e la deviazione standard sono parametri associati alla popolazione, ma sono stimati dalla media del campione ((1 / N) * \ sum (x_i)) e dalla deviazione standard del campione ((1 / ( N-1)) * \ sum (x_i - x ^ bar) ^ 2).

— Baltimark,

8

La popolazione è tutto nel gruppo di studio. Ad esempio, se stai studiando il prezzo delle azioni di Apple, sono i prezzi delle azioni storici, attuali e persino futuri. Oppure, se gestisci una fabbrica di uova, sono tutte le uova prodotte dalla fabbrica.

Non è sempre necessario campionare ed eseguire test statistici. Se la tua popolazione è la tua famiglia vivente immediata, non è necessario campionare, poiché la popolazione è piccola.

Il campionamento è popolare per una serie di motivi:

è più economico di un censimento (campionamento dell'intera popolazione)
non hai accesso a dati futuri, quindi devi campionare il passato
devi distruggere alcuni oggetti testandoli e non vuoi distruggerli tutti (diciamo, uova)

— Neil McGuigan
fonte

2

Quando pensiamo al termine "popolazione", di solito pensiamo alle persone nella nostra città, regione, stato o paese e alle loro rispettive caratteristiche come sesso, età, stato civile, appartenenza etnica, religione e così via. In statistica il termine "popolazione" assume un significato leggermente diverso. La "popolazione" nelle statistiche comprende tutti i membri di un gruppo definito su cui stiamo studiando o raccogliendo informazioni per decisioni basate sui dati.

Una parte della popolazione è chiamata campione. È una proporzione della popolazione, una parte di essa, una parte di essa e tutte le sue caratteristiche. Un campione è un gruppo disegnato scientificamente che possiede effettivamente le stesse caratteristiche della popolazione - se è disegnato in modo casuale (questo può essere difficile da credere, ma è vero!)

I campioni estratti casualmente devono avere due caratteristiche:

* Ogni persona ha pari opportunità di essere selezionata per il tuo campione; e,

* La selezione di una persona è indipendente dalla selezione di un'altra persona.

La cosa grandiosa dei campioni casuali è che puoi generalizzare alla popolazione che ti interessa. Quindi, se assaggi 500 famiglie nella tua comunità, puoi generalizzare alle 50.000 famiglie che vivono lì. Se abbini alcune delle caratteristiche demografiche della 500 con la 50.000, vedrai che sono sorprendentemente simili.

— roseleneramas
fonte

2

Questo è fondamentalmente corretto, se interpretato correttamente. Temo che alcuni lettori possano essere indotti a pensare che semplici campioni casuali con sostituzione (che è il tipo di campione casuale che descrivi; ce ne sono altri tipi) riproducono correttamente tutte le caratteristiche della popolazione. In realtà, lo fanno raramente. Il punto del campionamento casuale è che le (inevitabili) differenze tra le caratteristiche del campione e le caratteristiche della popolazione possono essere attribuite al processo di selezione casuale.

— whuber

0

Una popolazione include tutti gli elementi da un insieme di dati. Un campione è costituito da una o più osservazioni della popolazione. BOA, A. (2012, 17)

— user91513
fonte

2

Quando tutti gli elementi di un "insieme di dati" sono considerati una popolazione, tale set di dati viene chiamato censimento della popolazione. Pochissimi set di dati sono censimenti.

— whuber