Il valore p è una stima puntuale?


32

Poiché si possono calcolare gli intervalli di confidenza per i valori p e poiché l'opposto della stima dell'intervallo è la stima puntuale: il valore p è una stima puntuale?


6
Non credo che si possano calcolare gli intervalli di confidenza per un valore p; è una statistica calcolata dai dati, non un parametro che descrive il processo di generazione dei dati. Ovviamente puoi ancora chiedere cosa stima una statistica.
Scortchi - Ripristina Monica

1
@Scortchi: ma se dovessi applicare, ad esempio, il bootstrap per calcolare una distribuzione di valori p e quindi costruire un intervallo percentile al 95% di questa distribuzione bootstrap, allora se non è un intervallo di confidenza per il valore p - cos'è vero ?
ameba dice di reintegrare Monica il

2
@amoeba: un intervallo di confidenza riguarda un parametro sconosciuto, mentre l'intervallo di bootstrap è un'approssimazione di una regione del 95% per una statistica.
Xi'an,

@Scorthci: ho visto un software che stampa elementi della configurazione per valori p. In questo caso, i valori p approssimativi sono stati calcolati mediante test di permutazione, quindi se l'IC fosse troppo ampio (ovvero valore p e valore p ), si utilizzerà più permutazioni prima di fare inferenza. [ 0,05 , 1 ][0,0.05][0.05,1]
Cliff AB,

4
@Cliff Questo non è un intervallo di confidenza per il valore p qua della proprietà di una distribuzione: questo è un intervallo di confidenza per uno stimatore stocastico del valore p di un test per un particolare campione. Anche se sembrano simili, ed entrambi sono intervalli, sono cose completamente diverse.
whuber

Risposte:


23

Le stime puntuali e gli intervalli di confidenza si riferiscono a parametri che descrivono la distribuzione, ad es. Media o deviazione standard.

A differenza di altre statistiche di esempio come la media del campione e la deviazione standard del campione, il valore p non è uno stimatore utile di un parametro di distribuzione interessante. Guarda la risposta di @whuber per i dettagli tecnici.

Il valore p per una statistica test dà la probabilità di osservare una deviazione dal valore atteso della statistica test tanto grande quanto osservato nel campione, calcolato partendo dal presupposto che l'ipotesi nulla sia vera. Se hai l'intera distribuzione, è coerente con l'ipotesi nulla o non lo è. Questo può essere descritto con una variabile indicatore (di nuovo, vedi la risposta di @whuber).

Ma il valore p non può essere usato come utile stimatore della variabile indicatore perché non è coerente in quanto il valore p non converge all'aumentare della dimensione del campione se l'ipotesi nulla è vera. Questo è un modo alternativo piuttosto complicato per affermare che un test statistico può rifiutare o non rifiutare il null, ma non confermarlo mai.


3
La maggior parte dei migliori resoconti dei test statistici (Lehman, Kiefer, ecc.) Non si riferiscono affatto alle "popolazioni", ma piuttosto inquadrano la situazione in termini di stima dei parametri delle distribuzioni. Ciò non richiede che la casualità sia dovuta esclusivamente al campionamento, e quindi consente alla teoria in senso più ampio di applicarsi alle situazioni in cui la casualità fa parte di un modello .
whuber

2
Ma hai esplicitamente contraddetto che con l'affermazione "non ci sono probabilità associate alla popolazione". Si noti inoltre che tutti gli stimatori sono "esplicitamente definiti a livello di campione". È quindi difficile determinare quale distinzione stai cercando di fare in questo post.
whuber

2
Ovviamente! Ma una distribuzione non è una popolazione.
whuber

4
(-1) Concordo sia con la risposta comune-sensibile di @ Tim che con la risposta recondita di whuber, ma sto lottando per dare un senso a questo. (1) "Ma il valore p non è un parametro di popolazione poiché è esplicitamente definito a livello di campione": questo è senza dubbio degno di nota, ma il "ma" fa sembrare che stai dicendo che un valore p può essere una stima di qualsiasi cosa perché è una statistica di esempio, come se la media del campione non potesse essere una stima di nulla perché è una statistica di esempio. ...
Scortchi - Ripristina Monica

2
(2) "Questo perché non ci sono probabilità associate alla popolazione, è considerato fisso ma sconosciuto": (a) Il valore p non viene calcolato dal campione perché "non ci sono probabilità [.. .] "; (b) come sottolineato da @ whuber, il campionamento da una popolazione finita è un caso speciale; (c) in ogni caso non deriva da ciò che hai detto che il valore p non stima nulla sulla popolazione.
Scortchi - Ripristina Monica

21

Sì, si potrebbe (ed è stato) sostenuto che un valore p è una stima puntuale.

Per identificare qualunque proprietà di una distribuzione possa stimare un valore p, dovremmo presumere che sia asintoticamente imparziale. Ma, asintoticamente, il valore p medio per l'ipotesi nulla è (idealmente; per alcuni test potrebbe essere un altro numero diverso da zero) e per qualsiasi altra ipotesi è . Pertanto, il valore p potrebbe essere considerato uno stimatore della metà della funzione indicatore per l'ipotesi nulla.01/20


D

XXFXΩ

DFF

D

Sebbene sia interessante esplorare i limiti (e le limitazioni) di tali definizioni, come questa domanda ci invita a fare, forse non dovremmo insistere troppo sul fatto che un valore p è uno stimatore puntuale, perché questa distinzione tra stimatori e test è sia utile e convenzionale.


In un commento a questa domanda, Christian Robert ha richiamato l'attenzione su un articolo del 1992 in cui lui e i suoi coautori hanno preso esattamente questo punto di vista e analizzato l'ammissibilità del valore p come stimatore della funzione indicatore . Vedi il link nei riferimenti seguenti. Il documento inizia,

Gli approcci ai test di ipotesi hanno generalmente trattato il problema dei test come un processo decisionale piuttosto che una stima. Più precisamente, un test di ipotesi formale porterà a una conclusione sulla validità di un'ipotesi e non fornirà una misura di prova da associare a tale conclusione. In questo articolo consideriamo il test delle ipotesi come un problema di stima all'interno di un quadro decisionale ...

[Enfasi aggiunta.]


Riferimenti

Jiunn Tzon Hwang, George Casella, Christian Robert, Martin T. Wells e Roger H. Farrell, Stima dell'accuratezza nei test . Ann. Statist. Volume 20, numero 1 (1992), 490-509. Accesso aperto .

Jack Carl Kiefer, Introduzione all'inferenza statistica . Springer-Verlag, 1987.


2
Hmm. Non sono sicuro che questa vista sia utile. Per uno in questo senso, il valore p non è un buon stimatore, poiché non è coerente se l'ipotesi nulla è vera. E in alcuni casi (lo dici tu) ha anche un bias dipendente dalla dimensione del campione. Potrebbe essere vero dal punto di vista tecnico, ma qualsiasi numero casuale potrebbe essere (terribile) stimatore anche per qualsiasi parametro.
Erik,

10
La domanda non chiede se il valore p sia un buon stimatore, @Erik. Come stimatore ha evidenti carenze. Ad esempio, la sua varianza asintotica per l'ipotesi nulla è diversa da zero. Si noti che la distorsione di quasi tutti gli stimatori imparziali dipende dalla dimensione del campione. Anche se hai ragione sul fatto che un numero casuale indipendente potrebbe essere visto come uno stimatore, sarebbe uno stimatore di qualcosa di diverso: stimerebbe la propria media (per definizione). Pertanto, le tue obiezioni sembrano non avere alcuna rilevanza per la domanda in corso.
whuber

7
Non credo che differiamo su nessuno di questi punti, @Erik, tranne forse la parte "inutile". Come Nick Cox sottolinea in un commento altrove in questa discussione, è comunque interessante contemplare il senso in cui un valore p potrebbe essere considerato uno stimatore e che cosa, esattamente, potrebbe eventualmente essere stimato. Questo può aiutarci a capire un po 'meglio cosa sia (e non sia) un valore p. Molti lo considererebbero un esercizio utile .
whuber

7
pIΘ0(θ)

1
@ Xi'an Vedo che ci sono solo 23 anni dietro di te .... Grazie per il riferimento!
whuber

11

pμx¯μp<0.05pp


5
La tua affermazione iniziale riecheggia correttamente come le cose sono spesso spiegate, ma tuttavia non va abbastanza in profondità. Un fatto di base qui è la variazione del campionamento, la variabilità da campione a campione. Prendi un campione diverso e il tuo valore P sarà diverso. Ci vuole un po 'di ingegnosità per vedere esattamente ciò che sta stimando, e non è (per quanto ne so) convenzionale spiegarlo come stimare un parametro, ma quel punto di vista ha perfettamente senso. Vedi l'interessante risposta di @ whuber. (L'intero territorio è disseminato di parafrasi fangose ​​basate sulla necessità di semplificare l'insegnamento.)
Nick Cox,

1
Il modo in cui i termini sono usati è interessante e importante (e una preoccupazione personale, tra l'altro). La questione rimane quello di un P-value è . Anche questo è sottolineato [inevitabile gioco di parole qui] altrove in questo thread. È una convenzione utile considerare i parametri come quegli incogniti che compaiono nelle specifiche del modello, ma ci sono anche altri incogniti.
Nick Cox,

3
p<0.05p<0.01p<0.001p=0.003p<0.05αp<α
ameba dice di reintegrare Monica il

5
Questa domanda si interseca con molte altre, molte delle quali sono molto controverse. Uno è l'idealizzazione secondo cui lo scopo di un test è prendere una decisione sì o no, che non corrisponde affatto a tutti i problemi. Un altro fatto chiave è che l'uso dei livelli di soglia è stato per decenni una questione che le persone usavano tabelle pubblicate da tabelle stampate e che i valori P esatti erano irraggiungibili mentre le persone non usavano i computer.
Nick Cox,

4
@ 00schneider: se vedi mai un intervallo dato per i valori p, è molto improbabile che sia un intervallo di confidenza per il parametro di popolazione definito da whuber. Il punto di Tim è che non è necessario considerarli come una stima di qualcosa, interessante anche se potrebbe essere per farlo.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.