La mia domanda potrebbe essere riformulata come "come valutare un errore di campionamento usando i big data", specialmente per una pubblicazione su una rivista. Ecco un esempio per illustrare una sfida.
Da un set di dati molto ampio (> 100000 pazienti unici e i loro farmaci prescritti da 100 ospedali), sono interessato a stimare una percentuale di pazienti che assumono un farmaco specifico. È semplice ottenere questa proporzione. Il suo intervallo di confidenza (ad es. Parametrico o bootstrap) è incredibilmente stretto / stretto, perché n è molto grande. Anche se è una fortuna avere un campione di grandi dimensioni, sto ancora cercando un modo per valutare, presentare e / o visualizzare alcune forme di probabilità di errore. Mentre sembra inutile (se non fuorviante) inserire / visualizzare un intervallo di confidenza (ad es. IC al 95%: .65878 - .65881), sembra anche impossibile evitare alcune affermazioni sull'incertezza.
Per favore fatemi sapere cosa ne pensate. Gradirei qualsiasi letteratura su questo argomento; modi per evitare un'eccessiva fiducia nei dati anche con un campione di grandi dimensioni.