È questa la soluzione al problema del valore p?


67

Nel febbraio 2016, l'American Statistical Association ha rilasciato una dichiarazione formale sul significato statistico e sui valori p. Il nostro thread al riguardo discute ampiamente di questi problemi. Tuttavia, nessuna autorità è emersa per offrire un'alternativa efficace universalmente riconosciuta - fino ad ora. L'American Statistical Society (ASS) ha pubblicato la sua risposta, valori p: quali sono le prospettive?

"Il valore p non è buono per molto."

Pensiamo che l'ASA non sia andato abbastanza lontano. È tempo di ammettere che l'era dei valori p è finita. Gli statistici li hanno usati con successo per sconcertare gli studenti universitari, ingannare gli scienziati e ingannare i redattori di tutto il mondo, ma il mondo sta iniziando a vedere attraverso questo stratagemma. Dobbiamo abbandonare questo tentativo di statistica degli inizi del XX secolo di controllare il processo decisionale. Dobbiamo tornare a ciò che funziona davvero.

La proposta ufficiale ASS è questa:

Al posto dei valori p, l'ASS sostiene lo STOP (procedura SeaT-Of-Pants). Questo metodo antico e testato fu usato dagli antichi Greci, uomini del Rinascimento e tutti gli scienziati fino a quando Ronald Fisher arrivò e rovinò le cose. Lo STOP è semplice, diretto, basato sui dati e autorevole. Per realizzarlo, una figura di autorità (un maschio più anziano, di preferenza) rivede i dati e decide se concordano con la sua opinione. Quando decide che lo fanno, il risultato è "significativo". Altrimenti non lo è e tutti sono tenuti a dimenticare tutto.

I principi

La risposta riguarda ciascuno dei sei principi dell'ASA.

  1. Lo STOP può indicare quanto sono incompatibili i dati con un modello statistico specificato.

    Ci piace questa frase perché è un modo così elegante di dire che STOP risponderà a qualsiasi domanda sì o no. A differenza dei valori di p o di altre procedure statistiche, non lascia dubbi. È la risposta perfetta a coloro che dicono "non abbiamo bisogno di nessuna ipotesi nulla puzzolente! Che cos'è il *?! @, Comunque? Nessuno è mai riuscito a capire cosa avrebbe dovuto essere. "

  2. Lo STOP non misura la probabilità che un'ipotesi sia vera: in realtà decide se è vera o no.

    Tutti sono confusi dalle probabilità. Prendendo le probabilità fuori dal quadro, lo STOP elimina la necessità di anni di studi universitari e laureati. Ora chiunque (che è sufficientemente vecchio e maschio) può eseguire analisi statistiche senza il dolore e la tortura di ascoltare persino una singola lezione statistica o eseguire software arcani che emettono risultati incomprensibili.

  3. Le conclusioni scientifiche e le decisioni commerciali o politiche possono essere basate sul buon senso e sulle figure di autorità reale.

    Le decisioni importanti sono sempre state prese dalle autorità, quindi ammettiamolo e tagliamo gli intermediari. L'uso dello STOP consentirà agli statistici di fare ciò per cui sono più adatti: usare i numeri per offuscare la verità e santificare le preferenze di coloro che detengono il potere.

  4. Una corretta deduzione richiede piena trasparenza e trasparenza.

    Lo STOP è la procedura statistica più trasparente ed evidente mai inventata: guardi i dati e decidi. Elimina tutti quei confusi test z, test t, test chi-quadrato e procedure di minestra alfabetica (ANOVA! GLM! MLE!) Utilizzati dalle persone per nascondere il fatto che non hanno idea di cosa significhino i dati.

  5. Lo STOP misura l'importanza del risultato.

    Questo è evidente: se una persona in autorità impiega lo STOP, il risultato deve essere importante.

  6. Di per sé, lo STOP fornisce una buona misura di prove riguardanti un modello o un'ipotesi.

    Non vorremmo sfidare un'autorità, vero? Ricercatori e decisori riconosceranno che lo STOP fornisce tutte le informazioni che devono sapere. Per questi motivi, l'analisi dei dati può terminare con lo STOP; non sono necessari approcci alternativi, come valori di p, apprendimento automatico o astrologia.

Altri approcci

Alcuni statistici preferiscono i cosiddetti metodi "bayesiani", in cui un oscuro teorema pubblicato postumo da un chierico del 18 ° secolo viene applicato senza pensarci per risolvere ogni problema. I suoi sostenitori più noti ammettono liberamente che questi metodi sono "soggettivi". Se useremo metodi soggettivi, allora ovviamente più autorevole e competente sarà il decisore, migliore sarà il risultato. Lo STOP emerge quindi come il limite logico di tutti i metodi di Bayes. Perché sforzarsi di elaborare quei terribili calcoli e di impegnare così tanto tempo al computer, quando puoi semplicemente mostrare i dati al ragazzo responsabile e chiedergli qual è la sua opinione? Fine della storia.

Un'altra comunità è recentemente nata per sfidare il sacerdozio degli statistici. Si definiscono "machine learning" e "data scientist", ma in realtà sono solo hacker che cercano uno status più elevato. È la posizione ufficiale dell'ASS che questi ragazzi dovrebbero andare a formare la propria organizzazione professionale se vogliono che le persone li prendano sul serio.


La domanda

È questa la risposta ai problemi identificati dall'ASA con valori p e test di ipotesi nulli? Può davvero unire i paradigmi bayesiano e frequentista (come implicitamente affermato nella risposta)?


11
"Donald Trump per il supremo giudice STOP ASS: rendi di nuovo grandiose le statistiche!"
Alex R.

14
Chiaramente STOP è una procedura non ottimale. Sono sorpreso che ciò sia sfuggito a una tanto stimata organizzazione di studiosi come l'ASS. Vale a dire, perché perdere tempo guardando i dati a tutti ? Dai semplicemente la tua risposta sì / no. Questa metodologia è già attualmente in uso con grande efficacia. I casi studio abbondano, in particolare negli Stati Uniti per anni divisibili per 4.
cardinale

4
Penso che anche le aziende potrebbero trarre enormi vantaggi dall'adozione di questi metodi, dal momento che non dovrebbero più sostenere il pesante costo delle assunzioni delle persone per analizzare i loro dati.
Dsaxton,

4
@henry Come se il tag [april-1] non ce lo avesse detto?
Glen_b

9
@Henry sul serio? Puoi mostrarci qualche falsa organizzazione che ottiene oltre un quarto di milione di accessi quando si chiama Google?
whuber

Risposte:


18

Sto sostenendo per il mio nuovo approccio al processo decisionale statistico chiamato RADD: R oll A D amn D es. Affronta anche tutti i punti chiave.

1) RADD può indicare la compatibilità dei dati con un modello statistico specificato.

Se ottieni un numero più alto, chiaramente l'evidenza è più a favore del tuo modello! Un ulteriore vantaggio è che, se desideriamo ancora più fiducia, possiamo tirare un dado con più lati. Puoi anche trovare dadi a 100 facce se cerchi abbastanza!

2) RADD può decidere se un'ipotesi è vera o no.

Devi solo tirare un dado a 2 facce, cioè lanciare una moneta.

3) RADD può essere utilizzato per prendere decisioni aziendali o politiche

Prendi un gruppo di responsabili politici in una stanza e fai rotolare tutti i dadi! Vittorie più alte!

4) RADD è trasparente.

Il risultato può essere registrato e il dado stesso può essere conservato per ulteriori ricerche *

5) RADD misura l'importanza del risultato.

Ovviamente, rotolare più in alto significa che si è verificato un evento molto importante.

6) RADD fornisce una buona misura di prove.

Non abbiamo detto che i tiri più alti sono migliori?

Quindi no, STOP non è la risposta. La risposta è RADD.


7
Da non dimenticare, può garantire il controllo degli errori di tipo I (a qualsiasi livello desiderato dato un dado a faccia a faccia sufficiente), ad esempio rifiutando un'ipotesi nulla quando uno dei 5 lati con il numero più alto di un dado a 100 facce si alza per raggiungere un tasso di errore del 5% di tipo I.
Björn

1
Hai dimenticato di menzionare i poliedri platonici e alcuni poliedri non platonici .
Alexis,

17

Devo dire dalla mia esperienza che nella realtà aziendale lo STOP è il criterio decisionale predefinito, preferito ap-valori e altri metodi frequentisti o bayesiani. Dal punto di vista aziendale, STOP fornisce risposte semplici e definitive che lo rendono più affidabile dei metodi "probabilistici" incerti. Inoltre, nella stragrande maggioranza dei casi è più semplice da implementare e più facile da adattare al cambiamento della realtà rispetto ad altri metodi. Le decisioni Sì / No sono più convincenti per il medio e il senior management. I "rapporti di STOP" nella maggior parte dei casi sono più brevi e più facili da leggere rispetto a quelli basati sui dati. Inoltre, l'adozione di questo metodo consente al datore di lavoro di ridurre i costi per data scientist e licenze SAS. Direi che l'unico problema con STOP è che è più difficile rendere la presentazione di PowerPoint che presenta risultati STOP, ma questo è un campo in via di sviluppo dinamico, quindi in futuro potrebbero essere proposti metodi di visualizzazione migliori.


6
Una volta che le diapositive di PowerPoint con la conclusione sono state informate, è troppo tardi per cambiarlo, quindi ci sono due scelte, adeguare l'analisi alla conclusione o non preoccuparti affatto di fare l'analisi.
Mark L. Stone

12
@ MarkL.Stone Certo! Personalmente mi piace l'idea di fare trame per la presentazione prima di vedere i dati, l'idea è radicata nel pensiero bayesiano e li chiamo trame a priori :) Penso che questo approccio sia apparso per la prima volta qui stampato
Tim

15

Questa bella aggiunta al dibattito sul valore p, interessante ma anche un po 'stantia secondo me, mi ricorda un articolo unico pubblicato alcuni anni fa nel numero di Natale del British Medical Journal (BMJ), che ogni Natale pubblica ricerche reali ma divertenti articoli. In particolare, questo lavoro di Isaacs e Fitzgerald ha evidenziato sette alternative chiave alla medicina basata sull'evidenza (ovvero la pratica della medicina basata su prove cliniche e statistiche effettive):

  • Medicina basata sull'eminenza
  • Medicina basata sulla veemenza
  • Medicina basata sull'eloquenza
  • Medicina basata sulla provvidenza
  • Medicina basata sulla diffidenza
  • Medicina basata sul nervosismo
  • Medicina basata sulla fiducia

Ancora più interessante, è necessario guardare le colonne che evidenziano i dispositivi di misurazione e le unità di misura per gli elementi sopra (ad esempio audiometro e decibel per la medicina basata sulla veemenza!).


4
+1. Grazie per uno splendido contributo, perfettamente nello spirito della domanda. (1) Solo per chiarire: è il dibattito sul valore p che trovi "stantio" o solo questa domanda? (2) Sapresti dove trovare il riferimento (6), "J Retribuzioni esponenziali"? Sono sicuro che avrebbe molti avidi lettori se fosse meglio conosciuto.
whuber

5
(1) Il tuo contributo è "certificato fresco" (per citare rottentomatoes.com). Al contrario, trovo un po 'viziata questa enfasi sui limiti dei valori di p. In un'era di machine learning, big data e scarsa alfabetizzazione scientifica tra il pubblico, la posizione dell'ASA potrebbe sembrare un po 'masochista. (2) Penso che troverai questo articolo nello stesso diario in cui hanno pubblicato la prova randomizzata raccomandata in questo altro pezzo di Natale di BMJ: bmj.com/content/327/7429/1459 .
Joe_74

Ho sempre dimenticato, è la medicina basata sulla fiducia che utilizza l'inferenza basata su Dunning-Kruger?
Alexis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.