Sono abbastanza nuovo nelle statistiche (una manciata di corsi Uni per principianti) e mi chiedevo come campionare da distribuzioni sconosciute. In particolare, se non si ha idea della distribuzione sottostante, esiste un modo per "garantire" di ottenere un campione rappresentativo?
Esempio da illustrare: supponiamo che tu stia cercando di capire la distribuzione globale della ricchezza. Per ogni individuo, puoi in qualche modo scoprire la loro esatta ricchezza; ma non puoi "assaggiare" ogni singola persona sulla Terra. Quindi, supponiamo che campioniate n = 1000 persone a caso.
Se il tuo campione non includesse Bill Gates, potresti pensare che non esistano miliardari.
Se il campione includesse Bill Gates, potresti pensare che i miliardari siano più comuni di quanto non siano in realtà.
In entrambi i casi, non puoi davvero dire quanto siano comuni o rari i miliardari; potresti non essere nemmeno in grado di dire se ne esistono affatto.
Esiste un meccanismo di campionamento migliore per un caso come questo?
Come diresti a priori quale procedura di campionamento usare (e quanti campioni sono necessari)?
Mi sembra che potresti dover "campionare" un'enorme percentuale della popolazione per sapere, con qualcosa che si avvicina alla ragionevole certezza, quanto siano comuni o rari i miliardari sul pianeta, e che ciò è dovuto al fatto che la distribuzione sottostante è un po 'difficile lavorare con.