Qual è la differenza tra una popolazione e un campione? Quali variabili e statistiche comuni vengono utilizzate per ognuna e in che modo si relazionano tra loro?
Qual è la differenza tra una popolazione e un campione? Quali variabili e statistiche comuni vengono utilizzate per ognuna e in che modo si relazionano tra loro?
Risposte:
La popolazione è l'insieme di entità allo studio. Ad esempio, l'altezza media degli uomini. Questa è una popolazione ipotetica perché include tutti gli uomini che hanno vissuto, sono vivi e vivranno in futuro. Mi piace questo esempio perché porta a casa il punto in cui, come analisti, scegliamo la popolazione che desideriamo studiare. In genere è impossibile rilevare / misurare l'intera popolazione perché non tutti i membri sono osservabili (ad esempio uomini che esisteranno in futuro). Se è possibile elencare l'intera popolazione è spesso costoso farlo e richiederebbe molto tempo. Nell'esempio sopra abbiamo una popolazione "uomini" e un parametro di interesse, la loro altezza.
Invece, potremmo prendere un sottoinsieme di questa popolazione chiamato campione e usare questo campione per trarre inferenze sulla popolazione studiata, date alcune condizioni. Quindi potremmo misurare l'altezza media degli uomini in un campione della popolazione che chiamiamo statistica e usarla per trarre inferenze sul parametro di interesse nella popolazione. È un'inferenza perché ci saranno alcune incertezze e imprecisioni nel trarre conclusioni sulla popolazione sulla base di un campione. Questo dovrebbe essere ovvio: nel nostro campione abbiamo meno membri della nostra popolazione, quindi abbiamo perso alcune informazioni.
Esistono molti modi per selezionare un campione e lo studio di questo è chiamato teoria del campionamento. Un metodo comunemente usato si chiama Simple Random Sampling (SRS). In SRS ogni membro della popolazione ha la stessa probabilità di essere incluso nel campione, da cui il termine "casuale". Esistono molti altri metodi di campionamento, ad esempio campionamento stratificato, campionamento di cluster, ecc., Che presentano tutti i loro vantaggi e svantaggi.
È importante ricordare che il campione che preleviamo dalla popolazione è solo uno da un gran numero di potenziali campioni. Se dieci ricercatori studiassero tutti la stessa popolazione, tracciando i propri campioni, potrebbero ottenere risposte diverse. Tornando al nostro esempio precedente, ciascuno dei dieci ricercatori può trovare una diversa altezza media degli uomini, cioè la statistica in questione (altezza media) varia da campione a campione - ha una distribuzione chiamata distribuzione campionaria. Possiamo usare questa distribuzione per comprendere l'incertezza nella nostra stima del parametro di popolazione.
La distribuzione di campionamento della media del campione è nota per essere una distribuzione normale con una deviazione standard uguale alla deviazione standard del campione divisa per la dimensione del campione. Poiché ciò potrebbe facilmente essere confuso con la deviazione standard del campione, è più comune chiamare la deviazione standard della distribuzione campionaria l' errore standard .
La popolazione è l'intero insieme di valori o individui a cui sei interessato. Il campione è un sottoinsieme della popolazione ed è l'insieme di valori che usi effettivamente nella tua stima.
Quindi, per esempio, se vuoi conoscere l'altezza media dei residenti in Cina, quella è la tua popolazione, cioè la popolazione della Cina. Il fatto è che questo è un numero abbastanza grande e non saresti in grado di ottenere dati per tutti lì. Quindi disegni un campione, cioè ottieni alcune osservazioni, o l'altezza di alcune persone in Cina (un sottoinsieme della popolazione, il campione) e fai la tua deduzione sulla base di questo.
La popolazione è tutto nel gruppo di studio. Ad esempio, se stai studiando il prezzo delle azioni di Apple, sono i prezzi delle azioni storici, attuali e persino futuri. Oppure, se gestisci una fabbrica di uova, sono tutte le uova prodotte dalla fabbrica.
Non è sempre necessario campionare ed eseguire test statistici. Se la tua popolazione è la tua famiglia vivente immediata, non è necessario campionare, poiché la popolazione è piccola.
Il campionamento è popolare per una serie di motivi:
Quando pensiamo al termine "popolazione", di solito pensiamo alle persone nella nostra città, regione, stato o paese e alle loro rispettive caratteristiche come sesso, età, stato civile, appartenenza etnica, religione e così via. In statistica il termine "popolazione" assume un significato leggermente diverso. La "popolazione" nelle statistiche comprende tutti i membri di un gruppo definito su cui stiamo studiando o raccogliendo informazioni per decisioni basate sui dati.
Una parte della popolazione è chiamata campione. È una proporzione della popolazione, una parte di essa, una parte di essa e tutte le sue caratteristiche. Un campione è un gruppo disegnato scientificamente che possiede effettivamente le stesse caratteristiche della popolazione - se è disegnato in modo casuale (questo può essere difficile da credere, ma è vero!)
I campioni estratti casualmente devono avere due caratteristiche:
* Ogni persona ha pari opportunità di essere selezionata per il tuo campione; e,
* La selezione di una persona è indipendente dalla selezione di un'altra persona.
La cosa grandiosa dei campioni casuali è che puoi generalizzare alla popolazione che ti interessa. Quindi, se assaggi 500 famiglie nella tua comunità, puoi generalizzare alle 50.000 famiglie che vivono lì. Se abbini alcune delle caratteristiche demografiche della 500 con la 50.000, vedrai che sono sorprendentemente simili.
Una popolazione include tutti gli elementi da un insieme di dati. Un campione è costituito da una o più osservazioni della popolazione. BOA, A. (2012, 17)