Come campionare quando non si conosce la distribuzione


9

Sono abbastanza nuovo nelle statistiche (una manciata di corsi Uni per principianti) e mi chiedevo come campionare da distribuzioni sconosciute. In particolare, se non si ha idea della distribuzione sottostante, esiste un modo per "garantire" di ottenere un campione rappresentativo?

Esempio da illustrare: supponiamo che tu stia cercando di capire la distribuzione globale della ricchezza. Per ogni individuo, puoi in qualche modo scoprire la loro esatta ricchezza; ma non puoi "assaggiare" ogni singola persona sulla Terra. Quindi, supponiamo che campioniate n = 1000 persone a caso.

  1. Se il tuo campione non includesse Bill Gates, potresti pensare che non esistano miliardari.

  2. Se il campione includesse Bill Gates, potresti pensare che i miliardari siano più comuni di quanto non siano in realtà.

In entrambi i casi, non puoi davvero dire quanto siano comuni o rari i miliardari; potresti non essere nemmeno in grado di dire se ne esistono affatto.

Esiste un meccanismo di campionamento migliore per un caso come questo?

Come diresti a priori quale procedura di campionamento usare (e quanti campioni sono necessari)?

Mi sembra che potresti dover "campionare" un'enorme percentuale della popolazione per sapere, con qualcosa che si avvicina alla ragionevole certezza, quanto siano comuni o rari i miliardari sul pianeta, e che ciò è dovuto al fatto che la distribuzione sottostante è un po 'difficile lavorare con.


1
Nella distribuzione del caso di ricchezza, molto dipenderà da quale fosse esattamente l'obiettivo. Se, ad esempio, l'obiettivo fosse stimare i livelli di ricchezza che metterebbero un individuo tra i primi 10%, primi 20% e così via, allora non sarebbe fondamentale se il campione includesse o meno i miliardari. Ma se l'obiettivo fosse stimare la percentuale di ricchezza detenuta in totale dal 10% superiore, probabilmente il modo in cui i miliardari gestiti dal campionamento sarebbe stato probabilmente critico. Il punto generale qui è che se un campione è rappresentativo è sempre relativo a ciò che stai cercando di fare.
Adam Bailey,

veramente? problema aperto, risposte buone, ancora approssimazioni (a volte migliori, a volte peggiori). È un problema aperto, forse l'unico problema aperto delle statistiche
Nikos M.

Risposte:


9

Contesto la tua affermazione che "In entrambi i casi, non puoi davvero dire quanto siano comuni o rari i miliardari". Sia la frazione sconosciuta di miliardari nella popolazione. Con un'uniforme prima di f , la distribuzione posteriore di f dopo 1000 pareggi che si è rivelata avere 0 miliardari è una distribuzione Beta (1.1001), che assomiglia a questo: fff1000p (f | b = 0)

Mentre la distribuzione posteriore di dopo 1000 pareggi che si è rivelata avere 1 miliardario è una distribuzione Beta (2.1000), che assomiglia a questa: f1000p (f | b = 1)

f<0.01


7

Ci sono due cose che potresti fare (separatamente o in combinazione)

Modella la coda

Uno è modellare la coda della distribuzione usando una distribuzione parametrica. Le leggi sul potere sono note per adattarsi bene alla distribuzione della ricchezza, quindi provi una distribuzione di Pareto. Aderiresti tale distribuzione alla massima probabilità, ovvero trovando i parametri che rappresentano meglio il tuo campione. O meglio, potresti mettere un priore bayesiano sui parametri e calcolare l'intero posteriore.

Sfortunatamente, le leggi sulla potenza sono molto sensibili ai parametri e senza molti punti dati di grandi dimensioni nel tuo campione, ci sarà molta incertezza sull'esponente. Il numero stimato di miliardari sarà sensibile a questo parametro, ma molto meno della ricchezza media dei miliardari, quindi la situazione non è poi così grave.

Campionamento dell'importanza

L'altro è cambiare il modo in cui raccogli il campione. Supponiamo che sospetti (come dovresti) che ci sono più miliardari pro capite a Monaco o Zurigo che a Mogadishiu. Se conosci la popolazione di ciascuna di queste città, potresti raccogliere un campione più ampio nelle città in cui ti aspetti di vedere più miliardari e uno più piccolo nelle altre.

Quindi diciamo che Zurigo ha 400.000 persone e Mogadiscio 1.400.000 e vogliamo sondare 9.000 persone. Siamo interessati qui al numero di milionari, non a miliardari.

Un campione imparziale selezionerebbe 2000 persone a Zurigo e 7000 a Mogadiscio. Tuttavia, distorceremo il campione campionando sette volte più spesso da Zurigo. Quindi "fingeremo" che Zurigo abbia 2.800.000 persone e ci adegueremo in seguito. Ciò significa che sonderemo 6.000 persone a Zurigo anziché 2.000 e 4.000 a Mogadiscio.

Supponiamo di contare 21 milionari nel nostro campione di Zurigo e solo 1 nel nostro campione di Mogadiscio. Dato che abbiamo sovra campionato Zurigo 7 volte, lo conteremmo solo come 3 milionari.

Questa procedura riduce la varianza dello stimatore. Può anche essere utilizzato in combinazione con il primo metodo, nel qual caso si adatterà per il campionamento di importanza quando si adatta una distribuzione parametrica.


6

Penso che un buon metodo di campionamento si basi sulla conoscenza precedente del sistema. Nel tuo campo, sei a conoscenza di potenziali distorsioni che potrebbero influenzare il tuo campionamento. Se non hai questa conoscenza, puoi acquisirla dalla letteratura.

Nel tuo esempio, sai che ci sono miliardari e che potrebbero influenzare il tuo campionamento. Quindi puoi decidere di stratificare il campionamento per livello di istruzione, paese, tipo di lavoro, ecc. Ci sono più opzioni.

Proviamo con un altro esempio. Il tuo obiettivo è determinare l'abbondanza di specie di topi in un parco. In questo parco, c'è foresta e prati. Dalla letteratura, sai che i topi sono più abbondanti nella foresta rispetto ai prati. Quindi stratifichi il tuo campionamento in base a questa caratteristica. Esiste un'altra procedura di campionamento possibile, ma penso che le tue migliori informazioni verranno dalla letteratura esistente.

E se non ci sono pubblicazioni sul tuo campo? Improbabile, ma in quel contesto, farei un pre-studio per vedere quali fattori devono essere presi in considerazione per il campionamento.


2

Il fatto che un campione sia rappresentativo o meno non ha nulla a che fare con le misurazioni osservate del campione. Un campione è rappresentativo se ogni serie di unità osservative ha la stessa probabilità di essere scelta come qualsiasi altra serie della stessa dimensione. Naturalmente questo è difficile da fare a meno che non sia possibile ottenere un elenco completo del proprio spazio di esempio. Supponendo che sia possibile ottenerlo (dai dati del censimento, ad esempio), un semplice campione casuale sarà rappresentativo.

Indipendentemente da come si ottiene il campione, ci saranno sempre almeno tre diverse fonti di errore da considerare:

errore di campionamento: per caso includi Bill Gates nel tuo campione rappresentativo. I metodi statistici, in particolare l'ampiezza degli intervalli di confidenza, ecc. Sono progettati per occuparsene, a condizione che tu abbia una conoscenza approssimativa della distribuzione a portata di mano (ad esempio la normalità, che la distribuzione della ricchezza sicuramente non possiede).

bias di campionamento: il campione non era rappresentativo. Esempio: Bill Gates ha un numero non elencato, quindi il tuo sondaggio telefonico non potrebbe mai raggiungerlo (a meno che tu non usi qualcosa come "composizione a cifre casuali"). Questo è un esempio estremo, ma la tendenza al campionamento è molto diffusa. Un evento comune è quello di prendere campioni sul posto o di convenienza: assaggiate gli avventori del ristorante al ristorante per sapere se gli piace il posto, quanto spesso sono stati lì e se hanno intenzione di tornare. I clienti abituali hanno molte più probabilità di essere campionati rispetto ai clienti occasionali e campioni di questo tipo possono essere fortemente distorti nei loro atteggiamenti.

bias di risposta: le misurazioni stesse non sono accurate. Questo può avvenire a causa di qualsiasi cosa, dai malfunzionamenti del misuratore alla menzogna consapevole agli effetti quantistici (ad esempio il principio di incertezza di Heisenberg).


Questa risposta ha consigli utili e copre una buona base. Vorrei suggerire che la caratterizzazione di "rappresentante" potrebbe essere troppo restrittiva, tuttavia, poiché esclude le forme comuni e utili di campionamento (incluse alcune specificatamente menzionate in altre risposte) come campionamento stratificato, campionamento di importanza e forme di campionamento sistematico . Non sarebbe sufficiente consentire che un campione sia rappresentativo quando è nota la possibilità di includere qualsiasi insieme di unità osservative (e quindi può essere usato per produrre stime imparziali) ma non necessariamente costante per tutti gli insiemi di una determinata dimensione?
whuber

@whuber "Non sarebbe sufficiente permettere che un campione sia rappresentativo quando si conosce la possibilità di includere qualsiasi insieme di unità osservative ...": Questo è corretto e dovrei modificare la mia risposta per riconoscere il campionamento stratificato e il campionamento per importanza. Tuttavia, il campionamento sistematico è rischioso e il consiglio dato nel link e altrove è semplicemente sbagliato. Se ci sono schemi sistematici nei dati, un punto di partenza randomizzato non eliminerà il bias, tutto ciò che farà sarà assicurarsi di non essere in grado di calcolare il bias.
user3697176,

forse la risposta migliore finora (nel senso di puntare direttamente al punto statistico)
Nikos M.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.