Quali sono le condizioni dei dati a cui dovremmo prestare attenzione, in cui i valori p potrebbero non essere il modo migliore per decidere la significatività statistica? Esistono tipi di problemi specifici che rientrano in questa categoria?
Quali sono le condizioni dei dati a cui dovremmo prestare attenzione, in cui i valori p potrebbero non essere il modo migliore per decidere la significatività statistica? Esistono tipi di problemi specifici che rientrano in questa categoria?
Risposte:
Stai chiedendo di Data Dredging , che è ciò che accade quando si verifica un numero molto elevato di ipotesi su un set di dati o quando si verificano ipotesi su un set di dati suggerite dagli stessi dati.
In particolare, controlla il rischio di ipotesi multiple e le ipotesi di test suggerite dai dati .
La soluzione consiste nell'utilizzare un qualche tipo di correzione per il tasso di scoperta falso o il tasso di errore familiare , come il metodo di Scheffé o la correzione (molto vecchia scuola) di Bonferroni .
In un modo un po 'meno rigoroso, può aiutare a filtrare le tue scoperte in base all'intervallo di confidenza per il odds ratio (OR) per ogni risultato statistico. Se l'intervallo di confidenza del 99% per il rapporto di probabilità è 10-12, allora l'OR è <= 1 con una probabilità estremamente ridotta, specialmente se anche la dimensione del campione è grande. Se trovi qualcosa del genere, è probabilmente un forte effetto anche se è uscito da un test di milioni di ipotesi.
Non dovresti considerare il valore p fuori dal contesto.
Un punto piuttosto basilare (come illustrato da xkcd ) è che devi considerare quanti test stai effettivamente facendo. Ovviamente, non dovresti essere scioccato nel vedere p <0,05 per uno su 20 test, anche se l'ipotesi nulla è vera ogni volta.
Un esempio più sottile di ciò si verifica nella fisica delle alte energie ed è noto come effetto look-elsewhere . Maggiore è lo spazio dei parametri che cerchi un segnale che potrebbe rappresentare una nuova particella, maggiore è la probabilità che tu veda un segnale apparente che è in realtà solo dovuto a fluttuazioni casuali.
Una cosa di cui dovresti essere consapevole è la dimensione del campione che stai usando. Campioni molto grandi, come gli economisti che usano i dati del censimento, porteranno a valori p deflazionati. Questo documento "Troppo grande per fallire: campioni di grandi dimensioni e il problema del valore p" affronta alcuni dei problemi.