Quando i valori di p sono ingannevoli?


14

Quali sono le condizioni dei dati a cui dovremmo prestare attenzione, in cui i valori p potrebbero non essere il modo migliore per decidere la significatività statistica? Esistono tipi di problemi specifici che rientrano in questa categoria?


2
Snarky risposta: quasi sempre. C'è un grande incentivo a creare errori di tipo 1 (ad es. "Falsi allarmi") quando gli analisti esaminano i dati, quindi quasi tutti i valori p che incontrerai sono "troppo" piccoli.
statsRus

7
Basta lanciarlo là fuori, ma non è meglio porre questo tipo di domanda su Cross Validated ?
buruzaemon,

1
@buruzaemon: Forse. Ho fatto una ricerca, questa è la corrispondenza più vicina: stats.stackexchange.com/questions/67320/… Non sembrano esserci più di una manciata di domande che toccano questo.
Alex I,

Risposte:


9

Stai chiedendo di Data Dredging , che è ciò che accade quando si verifica un numero molto elevato di ipotesi su un set di dati o quando si verificano ipotesi su un set di dati suggerite dagli stessi dati.

In particolare, controlla il rischio di ipotesi multiple e le ipotesi di test suggerite dai dati .

La soluzione consiste nell'utilizzare un qualche tipo di correzione per il tasso di scoperta falso o il tasso di errore familiare , come il metodo di Scheffé o la correzione (molto vecchia scuola) di Bonferroni .

In un modo un po 'meno rigoroso, può aiutare a filtrare le tue scoperte in base all'intervallo di confidenza per il odds ratio (OR) per ogni risultato statistico. Se l'intervallo di confidenza del 99% per il rapporto di probabilità è 10-12, allora l'OR è <= 1 con una probabilità estremamente ridotta, specialmente se anche la dimensione del campione è grande. Se trovi qualcosa del genere, è probabilmente un forte effetto anche se è uscito da un test di milioni di ipotesi.


1
Mentre Bonferroni è decisamente vecchio stile, è ancora piuttosto popolare. Ad esso è associato un metodo chiamato correzione Šidák ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Lo sto chiamando, perché in un sistema di targeting pubblicitario su larga scala su cui ho lavorato siamo riusciti a implementare questo approccio come UDF in Hive. Tuttavia, questo funziona meglio solo quando si ha l'indipendenza tra i test. Altrimenti devi ricorrere a Bonferroni o ad un altro metodo.
Chris Simokat,

5

Non dovresti considerare il valore p fuori dal contesto.

Un punto piuttosto basilare (come illustrato da xkcd ) è che devi considerare quanti test stai effettivamente facendo. Ovviamente, non dovresti essere scioccato nel vedere p <0,05 per uno su 20 test, anche se l'ipotesi nulla è vera ogni volta.

Un esempio più sottile di ciò si verifica nella fisica delle alte energie ed è noto come effetto look-elsewhere . Maggiore è lo spazio dei parametri che cerchi un segnale che potrebbe rappresentare una nuova particella, maggiore è la probabilità che tu veda un segnale apparente che è in realtà solo dovuto a fluttuazioni casuali.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.