Intervalli di confidenza quando la dimensione del campione è molto grande


14

La mia domanda potrebbe essere riformulata come "come valutare un errore di campionamento usando i big data", specialmente per una pubblicazione su una rivista. Ecco un esempio per illustrare una sfida.

Da un set di dati molto ampio (> 100000 pazienti unici e i loro farmaci prescritti da 100 ospedali), sono interessato a stimare una percentuale di pazienti che assumono un farmaco specifico. È semplice ottenere questa proporzione. Il suo intervallo di confidenza (ad es. Parametrico o bootstrap) è incredibilmente stretto / stretto, perché n è molto grande. Anche se è una fortuna avere un campione di grandi dimensioni, sto ancora cercando un modo per valutare, presentare e / o visualizzare alcune forme di probabilità di errore. Mentre sembra inutile (se non fuorviante) inserire / visualizzare un intervallo di confidenza (ad es. IC al 95%: .65878 - .65881), sembra anche impossibile evitare alcune affermazioni sull'incertezza.

Per favore fatemi sapere cosa ne pensate. Gradirei qualsiasi letteratura su questo argomento; modi per evitare un'eccessiva fiducia nei dati anche con un campione di grandi dimensioni.


7
È possibile evitare la fiducia eccessiva ricordando che gli errori non di campionamento rimangono intatti. Se ci sono errori nel campionamento e nella misurazione, sono ancora lì. Inoltre, indipendentemente dal fatto che si stiano contando pazienti unici (preferirei dire "distinti") o osservazioni definite in qualche altro modo, ci sono (presumo) strutture a grappolo che collegano farmaci per lo stesso paziente e farmaci che vengono somministrati insieme in qualsiasi modo, che non sono considerati dai calcoli dell'intervallo di confidenza più semplici. Non ho soluzioni su come quantificare questo oltre al confronto con altri set di dati e alla documentazione della produzione di dati.
Nick Cox,

Risposte:


10

Questo problema è emerso anche in alcune delle mie ricerche (come modellista di epidemie, ho il lusso di creare i miei set di dati e, con computer abbastanza grandi, possono essere essenzialmente di dimensioni arbitrarie.

  • In termini di segnalazione, penso che tu possa segnalare intervalli di confidenza più precisi, sebbene l'utilità di ciò sia legittimamente un po 'discutibile. Ma non è sbagliato, e con set di dati di queste dimensioni, non penso che ci sia molto da fare per richiedere che vengano riportati gli intervalli di confidenza e poi si lamentano del fatto che a tutti piacerebbe che fossero arrotondati a due cifre, ecc.
  • In termini di evitare l'eccesso di fiducia, penso che la chiave sia ricordare che la precisione e l' accuratezza sono cose diverse, ed evitare di cercare di confondere le due cose. È molto allettante, quando hai un campione di grandi dimensioni, essere risucchiato da quanto sia preciso l'effetto stimato e non pensare che potrebbe anche essere sbagliato. Quello che penso sia la chiave: un set di dati distorto avrà tale distorsione a N = 10, o 100, o 1000 o 100.000.

Lo scopo di set di dati di grandi dimensioni è fornire stime precise, quindi non credo che tu debba sottrarti a quella precisione. Ma devi ricordare che non puoi migliorare i dati errati semplicemente raccogliendo grandi volumi di dati errati.


Penso che un grande volume di dati errati sia ancora meglio di un piccolo volume di dati errati.
Aksakal,

@Aksakal Perché? Una risposta esattamente sbagliata è ancora sbagliata.
Fomite,

@Fomite - sì, ma sei più sicuro che sia sbagliato :)
Duncan il

6

Questo problema è emerso nei miei manoscritti.

1. Opzioni di report: se hai solo uno o pochi elementi della configurazione da segnalare, il report "(ad es. IC 95%: .65878 - .65881)" non è eccessivamente dettagliato e mette in evidenza la precisione dell'elemento della configurazione. Tuttavia, se si dispone di numerosi elementi della configurazione, una dichiarazione generale potrebbe essere più utile per il lettore. Ad esempio, di solito riferisco qualcosa all'effetto di "con questa dimensione del campione, il margine di errore dell'errore del 95% per ciascuna proporzione era inferiore a +/- .010". Di solito riporto qualcosa del genere nel Metodo, o nella didascalia di Tabella o Figura, o in entrambi.

2. Evitare la "fiducia eccessiva" anche con campioni di grandi dimensioni: con un campione di 100.000, il teorema del limite centrale ti terrà al sicuro quando riferisci gli EC per proporzioni. Quindi, nella situazione che hai descritto, dovresti essere a posto, a meno che non ci siano altre violazioni delle ipotesi di cui non sono a conoscenza (ad esempio, iid violato).


0

Non segnalare intervalli di confidenza. Invece riporta l'esatta dimensione del campione e le proporzioni. Il lettore sarà in grado di calcolare i propri IC in qualsiasi modo desideri.


4
Perché questo stesso ragionamento non dovrebbe essere applicato a tutte le segnalazioni di dati quantitativi?
whuber

@whuber, bella domanda. Sono tutto per la ricerca riproducibile, vorrei che tutti avessero pubblicato i loro set di dati.
Aksakal,

6
Non intendevo che fosse preso come un suggerimento. Anche se tutti pubblicassero i loro set di dati, abrogerebbero i loro doveri scientifici se non riuscissero a fornire un'analisi di essi - e questo include un'analisi dell'incertezza. Sembra che tu stia andando in una direzione che logicamente si concluderebbe con il suggerimento che gli scienziati non fanno altro che pubblicare dati, senza alcuna analisi! Ciò finisce per essere un atto d'accusa alla raccomandazione di non riportare gli EC. Indica al contrario che dovrebbe essere offerto un qualche tipo di analisi statistica, indipendentemente dalle dimensioni del campione.
whuber

0

Considera la possibilità che le 100 diverse proporzioni degli ospedali non convergano allo stesso valore medio. Hai provato la varianza tra i gruppi? Se esiste una differenza misurabile tra gli ospedali, l'assunto che i campioni siano generati da una distribuzione normale comune non è supportato e non è necessario raggrupparli.

Tuttavia, se i tuoi dati provengono davvero da un campione di grandi dimensioni normalmente distribuito, non troverai utili "dichiarazioni sull'incertezza" come proprietà dei dati, ma riflettendo sul perché o perché le tue statistiche dovrebbero generalizzarsi - a causa di qualche pregiudizio intrinseco nella raccolta, o mancanza di stazionarietà, ecc. che dovresti sottolineare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.