È davvero così che funzionano i valori p? Può un milione di articoli di ricerca all'anno basarsi sulla pura casualità?


98

Sono molto nuovo nelle statistiche e sto solo imparando a capire le basi, compresi i valori . Ma in questo momento c'è un enorme punto interrogativo nella mia mente e spero che la mia comprensione sia sbagliata. Ecco il mio processo di pensiero:p

Tutte le ricerche nel mondo non sono in qualche modo simili alle scimmie nel "teorema delle scimmie infinite"? Considera che ci sono 23887 università nel mondo. Se ogni università ha 1000 studenti, sono 23 milioni di studenti ogni anno.

Diciamo che ogni anno, ogni studente fa almeno un pezzo di ricerca, usando il test di ipotesi con .α=0.05

Ciò non significa che anche se tutti i campioni di ricerca fossero estratti da una popolazione casuale, circa il 5% di essi "respingerebbe l'ipotesi nulla come non valida". Wow. Pensaci. Sono circa un milione di articoli di ricerca all'anno pubblicati a causa di risultati "significativi".

Se funziona così, fa paura. Significa che gran parte della "verità scientifica" che diamo per scontata si basa sulla pura casualità.

Un semplice pezzo di codice R sembra supportare la mia comprensione:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Così fa questo articolo sul successo -Fishing: ho ingannato Milioni a pensare al cioccolato aiuta a perdere peso. Ecco come .p

È davvero tutto quello che c'è da fare? È così che la "scienza" dovrebbe funzionare?


31
Il vero problema è potenzialmente molto peggio che moltiplicare il numero di veri null per il livello di significatività, a causa della pressione per trovare significato (se un giornale importante non pubblicherà risultati non significativi o un arbitro rifiuterà un documento che non avere risultati significativi, c'è la pressione di trovare un modo per raggiungere il significato ... e vediamo spedizioni di "caccia al significato" in molte domande qui); questo può portare a livelli di significatività reali molto più alti di quanto sembri.
Glen_b,

5
D'altra parte, molte ipotesi nulle sono nulle e queste raramente sono effettivamente vere.
Glen_b,

37
Si prega di non confondere il metodo scientifico con valori p. Tra le altre cose, la scienza insiste sulla riproducibilità . È così che gli articoli sulla fusione fredda potrebbero essere pubblicati (nel 1989), ma la fusione fredda non esiste come teoria scientifica sostenibile nell'ultimo quarto di secolo. Si noti inoltre che pochi scienziati sono interessati a lavorare in aree in cui la vera ipotesi nulla è vera . Pertanto, la tua ipotesi che "tutti i campioni di ricerca sono stati estratti da [una] popolazione casuale" non riflette nulla di realistico.
whuber

13
Riferimento obbligatorio al cartone animato di jelly bean xkcd . Risposta breve: questo accade purtroppo troppo spesso e alcune riviste insistono perché uno statista riesca a rivedere ogni pubblicazione per ridurre la quantità di ricerche "significative" che entrano nel pubblico dominio. Molte risposte e commenti pertinenti in questa discussione precedente
Floris,

8
Forse non ricevo il reclamo ... "Abbiamo sconfitto con successo il 95% delle ipotesi fasulle. Il restante 5% non è stato così facile da sconfiggere a causa di fluttuazioni casuali che sembrano effetti significativi. Dovremmo guardare più da vicino e ignorare il altro 95% ". Sembra esattamente il giusto tipo di comportamento per qualcosa come "scienza".
Eric Towers,

Risposte:


70

Questa è certamente una preoccupazione valida, ma non è del tutto giusta.

Se vengono effettuati 1.000.000 di studi e tutte le ipotesi nulle sono vere, allora circa 50.000 avranno risultati significativi a p <0,05. Questo è ciò che significa valore ap. Tuttavia, il null essenzialmente non è mai assolutamente vero. Ma anche se lo allentassimo a "quasi vero" o "a proposito del giusto" o qualcosa del genere, ciò significherebbe che i 1.000.000 di studi dovrebbero riguardare cose come

  • La relazione tra numero di previdenza sociale e QI
  • La lunghezza delle dita dei piedi è correlata allo stato della tua nascita?

e così via. Senza senso.

Un problema è, ovviamente, che non sappiamo quali null siano veri. Un altro problema è quello @Glen_b menzionato nel suo commento: il problema del cassetto dei file.

Questo è il motivo per cui mi piacciono così tanto le idee di Robert Abelson che egli espone in Statistica come Argomento principale . Cioè, le prove statistiche dovrebbero essere parte di un argomento di principio sul perché qualcosa è il caso e dovrebbero essere giudicati in base ai criteri MAGIC:

  • Magnitudine: quanto è grande l'effetto?
  • Articolazione: è pieno di "ifs", "ands" e "buts" (che non va bene)
  • Generalità: quanto si applica?
  • interestingness
  • Credibilità: affermazioni incredibili richiedono molte prove

4
Si potrebbe anche dire "se si eseguono studi 1M e anche se tutte le ipotesi null sono vere, allora circa 50.000 eseguiranno un errore di tipo 1 e respingeranno erroneamente l'ipotesi null? Se un ricercatore ottiene p <0,05 sanno solo che" h0 è corretto e si è verificato un evento raro O h1 non è corretto ". Non c'è modo di dire quale sia solo guardando i risultati di questo studio, vero?
n_mu_sigma

5
Puoi ottenere un falso positivo solo se il positivo è, in effetti, falso. Se scegliessi 40 IV che erano tutti rumori, allora avresti buone probabilità di un errore di tipo I. Ma generalmente selezioniamo IV per un motivo. E il null è falso. Non è possibile commettere un errore di tipo I se il valore null è falso.
Peter Flom

6
Non capisco affatto il tuo secondo paragrafo, compresi i punti elenco. Diciamo che per motivi di argomento tutti i 1 milione di studi stavano testando composti farmacologici per curare una condizione specifica. L'ipotesi nulla per ciascuno di questi studi è che il farmaco non cura la condizione. Quindi, perché deve essere "essenzialmente mai rigorosamente vero"? Inoltre, perché dici che tutti gli studi dovrebbero riguardare relazioni senza senso, come ss # e IQ? Grazie per qualsiasi spiegazione aggiuntiva che possa aiutarmi a capire il tuo punto.
Chelonian,

11
Per rendere concreti gli esempi di @ PeterFlom: le prime tre cifre di un SSN (usato per) codificano il codice postale del richiedente. Dato che i singoli stati hanno dati demografici leggermente diversi e la dimensione dei piedi potrebbe essere correlata con alcuni fattori demografici (età, razza, ecc.), C'è quasi sicuramente una relazione tra il numero di previdenza sociale e la dimensione del dito del piede - se uno ha abbastanza dati.
Matt Krause,

6
@MattKrause buon esempio. Preferisco il conteggio delle dita per sesso. Sono sicuro che se prendessi un censimento di tutti gli uomini e tutte le donne, troverei che un genere ha in media più dita dell'altro. Senza prendere un campione estremamente grande, non ho idea di quale genere abbia più dita. Inoltre, dubito che come produttore di guanti userei i dati del censimento delle dita nella progettazione dei guanti.
emory

40

Tutte le ricerche nel mondo non sono in qualche modo simili alle scimmie del "teorema delle scimmie infinite"?

Ricorda, gli scienziati NON sono critici come scimmie infinite, perché il loro comportamento di ricerca - in particolare la sperimentazione - è tutt'altro che casuale. Gli esperimenti sono (almeno si suppone che siano) manipolazioni e misurazioni incredibilmente attentamente controllate basate su ipotesi meccanicamente informate che si basano su un ampio corpus di ricerche precedenti. Non sono solo scatti casuali al buio (o dita di scimmia su macchine da scrivere).

Considera che ci sono 23887 università nel mondo. Se ogni università ha 1000 studenti, sono 23 milioni di studenti ogni anno. Diciamo che ogni anno, ogni studente fa almeno una ricerca,

Tale stima per il numero di risultati di ricerca pubblicati deve essere molto lontana. Non so se ci siano 23 milioni di "studenti universitari" (include solo università o college?) Nel mondo, ma so che la stragrande maggioranza di loro non pubblica mai risultati scientifici. Voglio dire, la maggior parte di loro non sono specialisti in scienze, e anche la maggior parte delle major non pubblicano mai risultati.

Una stima più probabile (alcune discussioni ) per il numero di pubblicazioni scientifiche ogni anno è di circa 1-2 milioni.

Ciò non significa che anche se tutti i campioni di ricerca fossero estratti da una popolazione casuale, circa il 5% di essi "respingerebbe l'ipotesi nulla come non valida". Wow. Pensaci. Sono circa un milione di articoli di ricerca all'anno pubblicati a causa di risultati "significativi".

Tieni presente che non tutte le ricerche pubblicate hanno statistiche in cui la significatività è corretta al valore p = 0,05. Spesso si vedono valori di p come p <0,01 o anche p <0,001. Non so quale sia il valore "medio" p di oltre un milione di documenti, ovviamente.

Se funziona così, fa paura. Significa che gran parte della "verità scientifica" che diamo per scontato si basa sulla pura casualità.

Inoltre, tieni presente che gli scienziati non dovrebbero davvero prendere un piccolo numero di risultati a circa 0,05 come "verità scientifica". Neanche vicino. Si suppone che gli scienziati si integrino in molti studi, ognuno dei quali ha un adeguato potere statistico, meccanismo plausibile, riproducibilità, entità dell'effetto, ecc., E lo incorpora in un modello provvisorio di come funziona un fenomeno.

Ma questo significa che quasi tutta la scienza è corretta? Non c'è modo. Gli scienziati sono umani e cadono preda di pregiudizi, cattiva metodologia di ricerca (compresi approcci statistici impropri), frode, semplice errore umano e sfortuna. Probabilmente più dominanti sul perché una parte sana della scienza pubblicata è sbagliata sono questi fattori piuttosto che la convenzione p <0,05. In effetti, tagliamo subito l'inseguimento e facciamo un'affermazione ancora più "spaventosa" di ciò che hai fatto:

Perché la maggior parte dei risultati di ricerca pubblicati sono falsi


10
Direi che Ioannidi sta sostenendo un argomento rigoroso a sostegno della domanda. Alla scienza non viene fatto nulla di simile, così come sembrano pensare gli ottimisti che rispondono qui. E molte ricerche pubblicate non vengono mai replicate. Inoltre, quando si tenta la replica, i risultati tendono a sostenere l'argomento di Ioannidi secondo cui gran parte della scienza pubblicata è sostanzialmente una mania.
matt_black,

9
Potrebbe essere interessante notare che nella fisica delle particelle la nostra soglia del valore p per rivendicare una scoperta è 0,00000057.
David Z,

2
E in molti casi, non ci sono assolutamente valori p. La matematica e la fisica teorica sono casi comuni.
Davidmh,

21

p

α

Vedi ad esempio questa recente discussione di un articolo del 2014 di David Colquhoun: Confusione con tasso di scoperta falsa e test multipli (su Colquhoun 2014) . Ho discusso lì contro questa stima "almeno del 30%", ma concordo sul fatto che in alcuni campi della ricerca il tasso di falsa scoperta può essere molto più alto del 5%. Questo è davvero preoccupante.

Non penso che dire nulla sia quasi mai vero non aiuta qui; Gli errori di tipo S e di tipo M (come introdotto da Andrew Gelman) non sono molto migliori degli errori di tipo I / II.

Penso che ciò significhi davvero che non ci si dovrebbe mai fidare di un risultato "significativo" isolato.

α10-7α=0.05

p<0.05p

p<0.05


Ri "valori p cumulativi": puoi semplicemente moltiplicare i singoli valori p o devi fare delle mostruose combinatorie per farlo funzionare?
Kevin,

pαp

17

La vostra preoccupazione è esattamente la preoccupazione che sta alla base dell'attuale discussione scientifica sulla riproducibilità. Tuttavia, il vero stato delle cose è un po 'più complicato di quanto si pensi.

Innanzitutto, stabiliamo un po 'di terminologia. Il test di significatività dell'ipotesi nulla può essere inteso come un problema di rilevamento del segnale: l'ipotesi nulla è vera o falsa e puoi scegliere di rifiutarla o conservarla. La combinazione di due decisioni e due possibili "veri" stati di cose si traduce nella seguente tabella, che la maggior parte delle persone vede ad un certo punto quando apprendono le prime statistiche:

inserisci qui la descrizione dell'immagine

Gli scienziati che utilizzano test di significatività dell'ipotesi nulla stanno tentando di massimizzare il numero di decisioni corrette (mostrate in blu) e minimizzare il numero di decisioni errate (mostrate in rosso). Gli scienziati che lavorano stanno anche cercando di pubblicare i loro risultati in modo che possano trovare lavoro e avanzare nella loro carriera.

H0


H0

Distorsione della pubblicazione

α

p

Grado di libertà dei ricercatori

αα. Data la presenza di un numero sufficientemente ampio di pratiche di ricerca discutibili, il tasso di falsi positivi può arrivare fino a .60 anche se il tasso nominale è stato fissato a 0,05 ( Simmons, Nelson e Simonsohn, 2011 ).

È importante notare che l'uso improprio dei gradi di libertà dei ricercatori (che a volte è noto come una pratica di ricerca discutibile; Martinson, Anderson, e de Vries, 2005 ) non è lo stesso della creazione di dati. In alcuni casi, escludere gli outlier è la cosa giusta da fare, perché le apparecchiature non funzionano o per qualche altro motivo. Il problema chiave è che, in presenza di gradi di libertà dei ricercatori, le decisioni prese durante l'analisi dipendono spesso da come i dati vengono visualizzati ( Gelman & Loken, 2014), anche se i ricercatori in questione non sono a conoscenza di questo fatto. Finché i ricercatori usano gradi di libertà dei ricercatori (consciamente o inconsciamente) per aumentare la probabilità di un risultato significativo (forse perché risultati significativi sono più "pubblicabili"), la presenza di gradi di libertà dei ricercatori sovrappopolerà una letteratura di ricerca con falsi positivi in allo stesso modo della distorsione della pubblicazione.


Un avvertimento importante alla discussione di cui sopra è che gli articoli scientifici (almeno in psicologia, che è il mio campo) raramente consistono in singoli risultati. Più comuni sono gli studi multipli, ognuno dei quali comporta più test: l'enfasi è sulla costruzione di un argomento più ampio e sull'esclusione di spiegazioni alternative per le prove presentate. Tuttavia, la presentazione selettiva dei risultati (o la presenza di gradi di libertà dei ricercatori) può produrre distorsioni in una serie di risultati con la stessa facilità di un singolo risultato. Vi sono prove che i risultati presentati in articoli multi-studio sono spesso molto più puliti e più forti di quanto ci si aspetterebbe anche se tutte le previsioni di questi studi fossero tutte vere ( Francis, 2013 ).


Conclusione

Fondamentalmente, sono d'accordo con la tua intuizione che il test di significatività dell'ipotesi nulla può andare storto. Tuttavia, direi che i veri colpevoli che producono un alto tasso di falsi positivi sono processi come la tendenza alla pubblicazione e la presenza di gradi di libertà dei ricercatori. In effetti, molti scienziati sono ben consapevoli di questi problemi e il miglioramento della riproducibilità scientifica è un argomento di discussione attuale molto attivo (ad esempio, Nosek & Bar-Anan, 2012 ; Nosek, Spies e Motyl, 2012 ). Quindi sei in buona compagnia con le tue preoccupazioni, ma penso anche che ci siano anche ragioni per un cauto ottimismo.


Riferimenti

Stern, JM e Simes, RJ (1997). Orientamento alla pubblicazione: evidenza di pubblicazione ritardata in uno studio di coorte di progetti di ricerca clinica. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E., ... Williamson, PR (2008). Revisione sistematica dell'evidenza empirica della parzialità della pubblicazione dello studio e della parzialità dei risultati. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). Il problema del cassetto file e la tolleranza per risultati nulli. Bollettino psicologico, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD e Simonsohn, U. (2011). Psicologia dei falsi positivi: la flessibilità non divulgata nella raccolta e nell'analisi dei dati consente di presentare qualcosa di così significativo. Scienze psicologiche, 22 (11), 1359-1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS, e de Vries, R. (2005). Gli scienziati si comportano male. Natura, 435, 737–738. http://doi.org/10.1038/435737a

Gelman, A. e Loken, E. (2014). La crisi statistica nella scienza. Scienziato americano, 102, 460-465.

Francis, G. (2013). Replica, coerenza statistica e distorsione della pubblicazione. Journal of Mathematical Psychology, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA, e Bar-Anan, Y. (2012). Utopia scientifica: I. Apertura della comunicazione scientifica. Psychological Inquiry, 23 (3), 217-243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR, & Motyl, M. (2012). Utopia scientifica: II. Ristrutturazione di incentivi e pratiche per promuovere la verità sulla pubblicabilità. Perspectives on Psychological Science, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058


1
+1. Bella raccolta di link. Ecco un articolo molto pertinente per la sezione "Gradi di libertà dei ricercatori": Il giardino dei percorsi di biforcazione: perché più confronti possono essere un problema, anche quando non c'è "spedizione di pesca" o "p-hacking" e l'ipotesi di ricerca era postulato in anticipo da Andrew Gelman ed Eric Loken (2013).
amoeba,

Grazie, @amoeba, per questo riferimento interessante. Mi piace in particolare il fatto che Gelman e Loken (2013) sostengano che capitalizzare sui gradi di libertà dei ricercatori non debba essere un processo consapevole. Ho modificato la mia risposta per includere quel documento.
Patrick S. Forscher,

Ho appena trovato la versione pubblicata di Gelman & Loken (2014) in American Scientist.
Patrick S. Forscher,

10

Un controllo sostanziale dell'importante questione sollevata in questa domanda è che la "verità scientifica" non si basa su pubblicazioni individuali e isolate. Se un risultato è sufficientemente interessante, spingerà altri scienziati a perseguire le implicazioni del risultato. Tale lavoro tenderà a confermare o confutare il risultato originale. Potrebbe esserci una probabilità 1/20 di rifiutare una vera ipotesi nulla in uno studio individuale, ma solo un 1/400 di farlo due volte di seguito.

Se gli scienziati semplicemente ripetessero gli esperimenti fino a quando non trovassero "significato" e quindi pubblicassero i loro risultati, il problema potrebbe essere grande come suggerisce il PO. Ma non è così che funziona la scienza, almeno nei miei quasi 50 anni di esperienza nella ricerca biomedica. Inoltre, una pubblicazione parla raramente di un singolo esperimento "significativo", ma piuttosto si basa su una serie di esperimenti interconnessi (ognuno dei quali deve essere "significativo" da solo) che insieme forniscono supporto per un'ipotesi più ampia e sostanziale.

Un problema molto più grande viene dagli scienziati che sono troppo impegnati nelle proprie ipotesi. Potrebbero quindi interpretare in modo eccessivo le implicazioni dei singoli esperimenti a supporto delle loro ipotesi, impegnarsi nella modifica dubbia dei dati (come la rimozione arbitraria di valori anomali) o (come ho visto e aiutato a catturare) semplicemente per creare i dati.

La scienza, tuttavia, è un processo altamente sociale, indipendentemente dalla mitologia degli scienziati pazzi che si nascondono in alto nelle torri d'avorio. Il dare e avere tra migliaia di scienziati che perseguono i loro interessi, sulla base di ciò che hanno imparato dal lavoro degli altri, è la massima protezione istituzionale dai falsi positivi. Talvolta si possono perpetuare falsi risultati per anni, ma se un problema è sufficientemente importante il processo alla fine identificherà le conclusioni errate.


6
1/400040

2
Su 23 studi M, non siamo ancora in grado di dire se 5.000 risultati rifiutano l'ipotesi nulla solo a causa del rumore, vero? È davvero anche un problema di scala. Una volta che hai milioni di ricerche, l'errore di tipo 1 sarà comune.
n_mu_sigma,

3
Se ci fossero solo 5000 conclusioni errate su 23.000.000 di studi, lo definirei davvero insolito !
whuber

3
In quasi 50 anni di scienza e di conoscenza di altri scienziati, non riesco a pensare a nessuno che abbia ripetuto gli esperimenti fino a quando non abbiano raggiunto il "significato". La possibilità teorica sollevata da @whuber non è, nella mia esperienza, un grosso problema pratico. Il problema pratico molto più grande è la creazione di dati, indirettamente eliminando "valori anomali" che non rientrano in un preconcetto, o semplicemente creando "dati" per cominciare. Quei comportamenti che ho visto in prima persona, e non possono essere corretti regolando i valori p .
EdM

3
@EdM "Potrebbe esserci una probabilità 1/20 di rifiutare una vera ipotesi nulla in uno studio individuale, ma solo un 1/4000 di farlo due volte di seguito." Come hai ottenuto il secondo numero?
Aksakal,

5

Giusto per aggiungere alla discussione, ecco un post interessante e una discussione successiva su come le persone comunemente fraintendono il valore p.

Ciò che dovrebbe essere mantenuto in ogni caso è che un valore p è solo una misura della forza dell'evidenza nel respingere una determinata ipotesi. Un valore p non è sicuramente una soglia rigida al di sotto della quale qualcosa è "vero" e al di sopra del quale è dovuto solo al caso. Come spiegato nel post sopra citato:

i risultati sono una combinazione di effetti reali e possibilità, non è né / o


forse questo contribuirà alla comprensione dei valori p: stats.stackexchange.com/questions/166323/…

4

Come indicato anche nelle altre risposte, ciò causerà problemi solo se si considerano in modo selettivo i risultati positivi in ​​cui è esclusa l'ipotesi nulla. Questo è il motivo per cui gli scienziati scrivono articoli di recensioni in cui considerano i risultati di ricerche precedentemente pubblicati e cercano di sviluppare una migliore comprensione dell'argomento sulla base di ciò. Tuttavia, rimane ancora un problema, dovuto al cosiddetto "orientamento alla pubblicazione", vale a dire che gli scienziati hanno maggiori probabilità di scrivere un articolo su un risultato positivo rispetto a un risultato negativo, anche un documento su un risultato negativo è più probabilità di essere respinto per la pubblicazione rispetto a un articolo su un risultato positivo.

Soprattutto nei settori in cui i test statistici sono molto importanti, questo sarà un grosso problema, il campo della medicina ne è un noto esempio. Questo è il motivo per cui è stato reso obbligatorio registrare gli studi clinici prima che vengano condotti (ad es. Qui ). Quindi, è necessario spiegare la configurazione, come verrà eseguita l'analisi statistica, ecc. Ecc. Prima che inizi la sperimentazione. Le principali riviste mediche si rifiuteranno di pubblicare articoli se le prove che riportano su dove non sono registrati.

Sfortunatamente, nonostante questa misura, il sistema non funziona molto bene .


forse questo contribuirà alla comprensione dei valori p: stats.stackexchange.com/questions/166323/…

3

Questo è vicino a un fatto molto importante riguardo al metodo scientifico: sottolinea la falsificabilità. La filosofia della scienza che è oggi più popolare ha il concetto di falsificabilità di Karl Popper come pietra angolare.

Il processo scientifico di base è quindi:

  • Chiunque può rivendicare qualsiasi teoria voglia, in qualsiasi momento. La scienza ammetterà qualsiasi teoria "falsificabile". Il senso più letterale di quella parola è che, se a qualcun altro non piace il reclamo, quella persona è libera di spendere le risorse per confutare il reclamo. Se non pensi che i calzini argyle curino il cancro, sei libero di usare il tuo reparto medico per confutare.

  • Poiché questa barra di accesso è monumentalmente bassa, è tradizionale che la "scienza" come gruppo culturale non intratterrà realmente alcuna idea fino a quando non si sarà compiuto un "buon sforzo" per falsificare la propria teoria.

  • L'accettazione delle idee tende ad andare per gradi. Puoi trasformare il tuo concetto in un articolo di giornale con uno studio e un valore p piuttosto basso. Ciò che ti acquista è pubblicità e un po 'di credibilità. Se qualcuno è interessato alla tua idea, ad esempio se la tua scienza ha applicazioni di ingegneria, potrebbe voler usarla. A quel tempo, hanno maggiori probabilità di finanziare un ulteriore ciclo di falsificazione.

  • Questo processo va avanti, sempre con lo stesso atteggiamento: credi a ciò che vuoi, ma per chiamarlo scienza, devo poterlo smentire in seguito.

Questa barra bassa per l'ingresso è ciò che gli permette di essere così innovativo. Quindi sì, ci sono molti articoli di riviste teoricamente "sbagliati" là fuori. Tuttavia, la chiave è che ogni articolo pubblicato è in teoria falsificabile, quindi in qualsiasi momento, qualcuno potrebbe spendere i soldi per testarlo.

Questa è la chiave: le riviste contengono non solo cose che superano un ragionevole p-test, ma contengono anche le chiavi per consentire ad altri di smantellarle se i risultati si rivelano falsi.


1
Questo è molto idealistico. Alcune persone temono che troppi documenti sbagliati possano creare un rapporto segnale-rumore troppo basso in letteratura e rallentare gravemente o sbagliare il processo scientifico.
amoeba,

1
@amoeba Hai sollevato un buon punto. Ho sicuramente voluto catturare il caso ideale perché trovo che spesso si perda nel rumore. Oltre a ciò, penso che la domanda di SNR in letteratura sia una domanda valida, ma almeno dovrebbe essere bilanciabile. Ci sono già concetti di buone riviste contro riviste scadenti, quindi ci sono alcuni indizi che quell'atto di bilanciamento sia in corso da qualche tempo.
Cort Ammon,

Questa comprensione della filosofia della scienza sembra essere obsoleta da diversi decenni. La falsificabilità di Popperian è solo "popolare" nel senso di essere un mito urbano comune su come la scienza accade.
EnergyNumbers,

@EnergyNumbers Potresti illuminarmi sul nuovo modo di pensare? La filosofia SE ha un'opinione molto diversa dalla tua. Se guardi alla storia delle domande laggiù, la falsificabilità di Popperian è la caratteristica distintiva della scienza per la maggior parte di coloro che hanno espresso la loro voce. Mi piacerebbe imparare un nuovo modo di pensare e portarlo lì!
Cort Ammon,

Nuovo? Kuhn ha confutato Popper decenni fa. Se non hai nessun post su Popperian su philosophy.se, aggiornarlo sembrerebbe una causa persa - lascialo negli anni '50. Se vuoi aggiornare te stesso, allora qualsiasi primer universitario del 21 ° secolo sulla filosofia della scienza dovrebbe iniziare.
EnergyNumbers,

1

È così che dovrebbe funzionare la "scienza"?

Ecco come funzionano molte scienze sociali. Non così tanto con le scienze fisiche. Pensa a questo: hai digitato la tua domanda su un computer. Le persone sono state in grado di costruire queste complicate bestie chiamate computer utilizzando le conoscenze di fisica, chimica e altri campi delle scienze fisiche. Se la situazione fosse grave come la descrivi, l'elettronica non funzionerebbe. O pensa a cose come una massa di un elettrone, che è nota con una precisione folle. Passano attraverso miliardi di porte logiche in un computer su un over e il tuo computer funziona e funziona ancora per anni.

AGGIORNAMENTO: per rispondere ai voti negativi che ho ricevuto, mi sono sentito ispirato a darti un paio di esempi.

Il primo è della fisica: Bystritsky, VM, et al. " Misurare i fattori S astrofisici e le sezioni trasversali della reazione p (d, γ) 3He nella regione di energia ultraleggera usando un bersaglio di deuteride di zirconio ." Physics of Particles and Nuclei Letters 10.7 (2013): 717-722.

0,237±0,061

Il mio prossimo esempio è di ... psicologia: Paustian-Underdahl, Samantha C., Lisa Slattery Walker e David J. Woehr. " Genere e percezioni dell'efficacia della leadership: una meta-analisi di moderatori contestuali ." Journal of Applied Psychology, 2014, Vol. 99, n. 6, 1129-1145.

χ2

Ora, guarda alcuni tavoli da documenti e indovina da quali documenti provengono:

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

Questa è la risposta per cui in un caso hai bisogno di statistiche "interessanti" e in un altro no: perché i dati sono scadenti o no. Quando disponi di dati validi, non hai bisogno di molte statistiche oltre agli errori standard.

UPDATE2: @ PatrickS.Forscher ha fatto una dichiarazione interessante nel commento:

È anche vero che le teorie delle scienze sociali sono "più morbide" (meno formali) delle teorie della fisica.

Non sono d'accordo. In Economia e Finanza le teorie non sono affatto "leggere". Puoi cercare casualmente un documento in questi campi e ottenere qualcosa del genere:

inserisci qui la descrizione dell'immagine

e così via.

È di Schervish, Mark J., Teddy Seidenfeld e Joseph B. Kadane. " Estensioni della teoria dell'utilità attesa e alcune limitazioni dei confronti a coppie ." (2003). Ti sembra morbido?

Sto ribadendo il mio punto qui che quando le tue teorie non sono buone e i dati sono scadenti, puoi usare la matematica più difficile e ottenere comunque un risultato scadente.

In questo articolo parlano di utilità, il concetto come felicità e soddisfazione - assolutamente inosservabili. È come cosa è utile avere una casa contro mangiare un cheeseburger? Presumibilmente c'è questa funzione, in cui è possibile collegare "mangiare cheeseburger" o "vivere nella propria casa" e la funzione sputerà la risposta in alcune unità. Per quanto folle possa sembrare, questo è ciò su cui si basa l'ecnomica moderna, grazie a von Neuman.


1
+1 Non sono sicuro del motivo per cui questo è stato sottoposto a downgrade due volte. Stai sostanzialmente sottolineando che le scoperte in fisica possono essere testate con esperimenti e la maggior parte delle "scoperte" nelle scienze sociali non possono essere, il che non impedisce loro di ottenere molta attenzione da parte dei media.
Flounderer,

6
La maggior parte degli esperimenti alla fine prevede una sorta di test statistico e lascia ancora spazio a errori di tipo 1 e comportamenti scorretti come la pesca con valore p. Penso che individuare le scienze sociali sia un po 'fuori moda.
Kenji,

4
Per modificare un po 'quello che dice @GuilhermeKenjiChihaya, la deviazione standard degli errori potrebbe presumibilmente essere utilizzata per eseguire un test statistico in esperimenti fisici. Presumibilmente questo test statistico giungerebbe alla stessa conclusione che gli autori raggiungono vedendo il grafico con le sue barre di errore. La principale differenza con i documenti di fisica, quindi, è la quantità di rumore sottostante nell'esperimento, una differenza che è indipendente dal fatto che il la logica alla base dell'utilizzo dei valori p è valida o non valida.
Patrick S. Forscher,

3
Inoltre, @Flounderer, sembra che tu stia usando il termine "esperimento" in un senso con il quale non ho familiarità, poiché gli scienziati sociali fanno "esperimenti" (cioè la randomizzazione delle unità in condizioni) in ogni momento. È vero che gli esperimenti di scienze sociali sono difficili da controllare nella stessa misura presente negli esperimenti di fisica. È anche vero che le teorie delle scienze sociali sono "più morbide" (meno formali) delle teorie della fisica. Ma questi fattori sono indipendenti dal fatto che un dato studio sia un "esperimento".
Patrick S. Forscher,

2
@Aksakal mentre non sono d'accordo con -1, in parte non sono d'accordo con il tuo critico di scienze sociali. Il vostro esempio di carta economica non è anche un buon esempio di ciò che gli scienziati sociali fanno su base giornaliera perché la teoria utilità è un / matematico / statistiche concetto strettamente economico (in modo che già ha la matematica in esso) e non assomigliare ad esempio le teorie psicologiche che vengono testati sperimentalmente ... Tuttavia, concordo sul fatto che spesso le statistiche sono utilizzate in modo impreciso in molte aree di ricerca, comprese le scienze sociali.
Tim
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.