Ziliak (2011) si oppone all'uso dei valori di p e menziona alcune alternative; quali sono?


25

In un recente articolo che discute dei demeriti di basarsi sul valore p per inferenza statistica, chiamato "Matrixx v. Siracusano e Student v. Fisher Significato statistico nella sperimentazione" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak si oppone all'uso dei valori di p. Nei paragrafi conclusivi afferma:

I dati sono l'unica cosa che già sappiamo e per certo. Ciò che vogliamo effettivamente sapere è qualcosa di completamente diverso: la probabilità che un'ipotesi sia vera (o almeno praticamente utile), dati i dati che abbiamo. Vogliamo sapere la probabilità che i due farmaci siano diversi e in che misura, date le prove disponibili. Il test di significatività - basato com'è sull'errore del condizionale trasposto, la trappola in cui è caduto Fisher - non ci dice e non può dirci quella probabilità. La funzione di potere, la funzione di perdita attesa e molti altri metodi teorici e bayesiani discendenti da Student e Jeffreys, ora ampiamente disponibili e gratuiti online, lo fanno.

Qual è la funzione di potenza, la funzione di perdita attesa e "altri metodi teorici e bayesiani di decisione"? Questi metodi sono ampiamente utilizzati? Sono disponibili in R? Come vengono implementati questi nuovi metodi suggeriti? Come, ad esempio, utilizzerei questi metodi per testare la mia ipotesi in un set di dati che altrimenti utilizzerei test t e valori p convenzionali a due campioni?


Ci sono molti articoli che discutono contro l'uso dei soli valori , ma dipende davvero dal contesto, IMO. Potresti aggiungere ulteriori informazioni su ciò che ti interessa (vedi la tua ultima frase)? p
chl

2
Non ho accesso all'articolo, ma questo argomento indica una comprensione piuttosto imperfetta di ciò che sta accadendo. Nonostante una comprensione errata, la conclusione che altre statistiche meritano considerazione è ragionevole. La funzione di perdita attesa è semplicemente una stima del valore atteso della funzione di perdita (ad es. Errore al quadrato, logistica, ecc.).
Iteratore

A causa di un thread simile recentemente pubblicato , ho sollevato una domanda su questo thread su Meta CV
Silverfish

Risposte:


17

Sembra un altro documento stridente di un individuo confuso. Fisher non è caduto in una tale trappola, anche se molti studenti di statistica lo fanno.

Il test di ipotesi è un problema teorico decisionale. Generalmente, si finisce con un test con una determinata soglia tra le due decisioni (ipotesi vera o ipotesi falsa). Se hai un'ipotesi che corrisponde a un singolo punto, come , puoi calcolare la probabilità che i tuoi dati risultino quando sono veri. Ma cosa fai se non è un singolo punto? Ottieni una funzione di θ . L'ipotesi θ 0 è un'ipotesi del genere e ottieni una tale funzione per la probabilità di produrre i tuoi dati osservati dato che è vera. Quella funzione è la funzione di potenza. È molto classico. Fisher lo sapeva.θ=0θθ0

La perdita attesa è una parte del meccanismo base della teoria delle decisioni. Hai vari stati della natura e vari possibili dati che ne derivano e alcune possibili decisioni che puoi prendere e vuoi trovare una buona funzione dai dati alle decisioni. Come definisci bene? Dato un particolare stato di natura alla base dei dati che hai ottenuto e la decisione presa da tale procedura, qual è la tua perdita prevista? Questo è semplicemente compreso nei problemi aziendali (se lo faccio sulla base delle vendite osservate negli ultimi tre trimestri, qual è la perdita monetaria prevista?).

Le procedure bayesiane sono un sottoinsieme di procedure teoriche di decisione. La perdita prevista non è sufficiente per specificare le procedure unicamente migliori in tutti i casi, tranne quelli banali. Se una procedura è migliore di un'altra nello stato A e B, ovviamente la preferirai, ma se una è migliore nello stato A e una è migliore nello stato B, quale scegli? Qui entrano in gioco idee ausiliarie come procedure di Bayes, minimaxità e imparzialità.

ttαβpαp

Sono anche un po 'confuso sul perché chiama insieme Student e Jeffreys, considerando che Fisher era responsabile della vasta diffusione del lavoro di Student.

Fondamentalmente, l'uso cieco di valori-p è una cattiva idea, e sono un concetto piuttosto sottile, ma ciò non li rende inutili. Dovremmo opporci al loro uso improprio da parte di ricercatori con scarse conoscenze matematiche? Assolutamente, ma ricordiamo che aspetto aveva prima che Fisher provasse a distillare qualcosa da usare per l'uomo sul campo.


5
+1 per aver effettivamente risposto alla domanda e un ulteriore (ma virtuale) +1 per sfidare la citazione, che è provocatoria ma problematica. Vedo che sei un partecipante recente qui ma hai già contribuito con molte risposte: molte grazie e benvenuto (un po 'in ritardo) al nostro sito!
whuber

Grazie mille per la tua risposta dettagliata. Aiuta a pensare a strategie alternative che sono suggerite in quel documento in modo critico. Ho posto questa domanda perché alcuni colleghi hanno usato questo documento per dire che non dovremmo assolutamente guardare ai valori p e ho capito che non capivo cosa significassero effettivamente queste alternative. Grazie per il chiarimento!
Ariel,

@whuber Non credo che questo risponda alla domanda. OP stava chiedendo delle alternative che Ziliak sta suggerendo, e questa risposta non le risponde. Ad esempio, la critica di Ziliak al significato tocca perché le persone usano il 5% o l'1% di significato. Non c'è davvero nessun motivo valido, ed è stato in grado di tracciare questi livelli sui documenti di Fisher. È solo un numero arbitrario e conveniente. Al contrario degli approcci "alternativi" basati su vantaggi pecuniari, ovvero valori in dollari.
Aksakal,

1
@Aksakal Credo che sia stato apportato un contributo importante alla conversazione collegando il test delle ipotesi a un problema teorico decisionale e collegando esplicitamente il valore p a un rischio atteso (basato su una funzione di perdita 0-1).
whuber


5

Il pacchetto ez fornisce rapporti di probabilità quando si utilizza la ezMixed()funzione per eseguire la modellazione di effetti misti. I rapporti di probabilità mirano a quantificare l'evidenza di un fenomeno confrontando la probabilità (dati dati osservati) di due modelli: un modello "limitato" che limita a zero l'influenza del fenomeno e un modello "senza restrizioni" che consente un'influenza non zero di il fenomeno. Dopo aver corretto le probabilità osservate per la complessità differenziale dei modelli (tramite il Criterio informativo di Akaike, che è asintoticamente equivalente alla convalida incrociata), il rapporto quantifica l'evidenza del fenomeno.


4

Tutte queste tecniche sono disponibili in R nello stesso senso in cui tutta l'algebra è disponibile nella tua matita. Anche i valori p sono disponibili attraverso molte funzioni diverse in R, decidendo quale funzione utilizzare per ottenere un valore p o un posteriore bayesiano è più complessa di un puntatore a una singola funzione o pacchetto.

Una volta che conosci queste tecniche e decidi quale domanda desideri effettivamente la risposta, puoi vedere (o possiamo fornire ulteriore aiuto) come farlo usando R (o altri strumenti). Il solo fatto di voler ridurre al minimo la funzione di perdita o di ottenere una distribuzione posteriore è utile quanto rispondere al "cibo" quando viene chiesto cosa si vuole mangiare per cena.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.