Che cosa significa "Gli scienziati si ribellano contro il significato statistico"? (Commento in natura)


61

Il titolo del Comment in Nature Gli scienziati si ribellano al significato statistico inizia con:

Valentin Amrhein, Sander Groenlandia, Blake McShane e oltre 800 firmatari chiedono la fine delle accuse sostenute e il licenziamento di effetti forse cruciali.

e in seguito contiene dichiarazioni come:

Ancora una volta, non stiamo sostenendo un divieto di valori di P, intervalli di confidenza o altre misure statistiche - solo che non dovremmo trattarli categoricamente. Ciò include la dicotomizzazione come statisticamente significativa o meno, nonché la categorizzazione basata su altre misure statistiche come i fattori di Bayes.

Penso di poter capire che l'immagine qui sotto non dice che i due studi non sono d'accordo perché uno "esclude" nessun effetto mentre l'altro no. Ma l'articolo sembra andare molto più in profondità di quanto io possa capire.

Verso la fine sembra esserci un riassunto in quattro punti. È possibile sintetizzarli in termini ancora più semplici per quelli di noi che leggono le statistiche anziché scriverle?

Quando si parla di intervalli di compatibilità, tenere presente quattro cose.

  • Innanzitutto, solo perché l'intervallo fornisce i valori più compatibili con i dati, dati i presupposti, ciò non significa che i valori al di fuori di esso siano incompatibili; sono solo meno compatibili ...

  • In secondo luogo, non tutti i valori all'interno sono ugualmente compatibili con i dati, dati i presupposti ...

  • In terzo luogo, come la soglia 0,05 da cui proveniva, il 95% predefinito utilizzato per calcolare gli intervalli è esso stesso una convenzione arbitraria ...

  • Infine, e soprattutto, sii umile: le valutazioni di compatibilità dipendono dalla correttezza delle ipotesi statistiche utilizzate per calcolare l'intervallo ...


Natura: gli scienziati si oppongono al significato statistico


13
Fondamentalmente, vogliono riempire i documenti di ricerca con ancora più falsi positivi!
David

12
Vedi la discussione sul blog di Gelman: statmodeling.stat.columbia.edu/2019/03/20/… . Ovviamente l'articolo solleva alcuni punti validi, ma vedi i commenti sollevati da Ioannidi contro questo articolo (e anche, separatamente, contro l'aspetto "petizione" di esso), come citato da Gelman.
ameba dice Ripristina Monica il

3
Questo non è un nuovo concetto però. La meta-analisi è stata una cosa positiva per 50 anni e Cochrane ha svolto meta-analisi di studi medico-sanitari (dove è più facile standardizzare obiettivi e risultati) negli ultimi 25 anni.
Graham,

4
Fondamentalmente il problema sta cercando di ridurre "l'incertezza" che è un problema multidimensionale a un singolo numero.
MaxW

4
Fondamentalmente se le persone affermassero "non abbiamo trovato prove di un'associazione tra X e Y" invece di "X e Y non sono correlate" quando si trova questo articolo probabilmente non esisterebbe. p>α
Firebug

Risposte:


65

I primi tre punti, per quanto posso dire, sono una variazione su un singolo argomento.

Gli scienziati spesso trattano le misurazioni dell'incertezza ( 12±1 , ad esempio) come distribuzioni di probabilità che assomigliano a questo:

distribuzione uniforme delle probabilità

Quando in realtà, sono molto più propensi a guardare come questo : inserisci qui la descrizione dell'immagine

Come ex chimico, posso confermare che molti scienziati con background non matematici (principalmente chimici e biologi non fisici) non capiscono davvero come dovrebbe funzionare l'incertezza (o l'errore, come la chiamano). Ricordano un periodo in fisica universitaria in cui forse dovevano usarli, forse anche dover calcolare un errore composto attraverso diverse misurazioni diverse, ma non le hanno mai veramente capite . Anch'io ero colpevole di questo, e presumevo che tutte le misurazioni dovessero rientrare nell'intervallo ± . Solo di recente (e al di fuori del mondo accademico), ho scoperto che le misurazioni degli errori di solito si riferiscono a una certa deviazione standard, non a un limite assoluto.

Quindi per scomporre i punti numerati nell'articolo:

  1. Le misurazioni al di fuori dell'IC hanno ancora una possibilità di accadere, perché la probabilità reale (probabilmente gaussiana) è diversa da zero lì (o ovunque per quella materia, anche se diventano sparitamente piccoli quando ci si allontana). Se i valori dopo ± rappresentano effettivamente uno sd, allora c'è ancora una probabilità del 32% che un punto dati cada al di fuori di essi.

  2. La distribuzione non è uniforme (piatta, come nel primo grafico), ha il picco. È più probabile che tu ottenga un valore nel mezzo rispetto ai bordi. È come lanciare un mucchio di dadi, piuttosto che un singolo dado.

  3. Il 95% è un limite arbitrario e coincide quasi esattamente con due deviazioni standard.

  4. Questo punto è più di un commento sull'onestà accademica in generale. Una realizzazione che ho avuto durante il mio dottorato di ricerca è che la scienza non è una forza astratta, ma gli sforzi cumulativi delle persone che tentano di fare scienza. Queste sono persone che stanno cercando di scoprire cose nuove sull'universo, ma allo stesso tempo stanno anche cercando di mantenere i loro bambini nutriti e mantenere il loro lavoro, che purtroppo nei tempi moderni significa che è in gioco qualche forma di pubblicazione o perire . In realtà, gli scienziati dipendono da scoperte che sono sia vere che interessanti , perché risultati poco interessanti non danno luogo a pubblicazioni.

Le soglie arbitrarie come p<0.05 possono spesso autoalimentarsi, specialmente tra coloro che non comprendono appieno le statistiche e hanno solo bisogno di un timbro di superamento / fallimento sui loro risultati. Pertanto, a volte le persone parlano a metà scherzosamente di "eseguire nuovamente il test finché non si ottiene p<0.05 ". Può essere molto allettante, specialmente se un dottorato di ricerca / borsa di studio / lavoro sta cavalcando il risultato, per far oscillare questi risultati marginali fino a quando nell'analisi non viene visualizzato il valore p=0.0498 desiderato .

Tali pratiche possono essere dannose per la scienza nel suo insieme, specialmente se ampiamente praticate, il tutto alla ricerca di un numero che è agli occhi della natura, insignificante. Questa parte in effetti sta esortando gli scienziati a essere onesti sui loro dati e sul loro lavoro, anche quando quell'onestà è a loro danno.


26
+1 per "... pubblicare o perire è in gioco. In realtà, gli scienziati dipendono da scoperte che sono sia vere che interessanti, perché risultati poco interessanti non danno luogo a pubblicazioni". C'è stato un interessante articolo che è uscito anni fa che parla di come questo "pubblicare o perire" porti a errori / distorsioni in tutto il mondo accademico: perché la maggior parte dei risultati di ricerca pubblicati sono falsi (Ioannidis, 2005)
J. Taylor,

4
Non concordo con "la reale (probabilmente gaussiana) incertezza ..." - Gaussian è un'altra semplificazione eccessiva. È in qualche modo più giustificato rispetto al modello dei limiti rigidi grazie al Teorema del limite centrale, ma la distribuzione reale è generalmente qualcosa di diverso.
lasciato il

1
@leftaroundabout La distribuzione reale è probabilmente ancora diversa, ma a meno che il valore non sia fisicamente impossibile, è probabile che la probabilità sia ancora matematicamente diversa da zero.
Gerrit,

3
@leftaroundabout dicendo che l'incertezza è probabilmente gaussiana non è intrinsecamente una semplificazione. Descrive una distribuzione precedente, che è giustificata dal CLT come la migliore precedente in assenza di altri dati di supporto, ma esprimendo incertezza sulla distribuzione il riconoscimento che la distribuzione potrebbe non essere gaussiana è già lì.
Will

7
@inisfree ti sbagli molto, molto. Molte discipline scientifiche (come la chimica e la biologia, come ho affermato prima) usano quasi zero matematica, oltre all'aritmetica di base. Altrimenti ci sono scienziati geniali là fuori che sono quasi analfabeti in matematica, e ne ho incontrati alcuni.
Ingolifs

19

Gran parte dell'articolo e della figura che includi fanno un punto molto semplice:

La mancanza di prove per un effetto non è la prova che non esiste.

Per esempio,

"Nel nostro studio, i topi trattati con cianuro non sono morti a tassi statisticamente significativamente più elevati" non è la prova per l'affermazione "il cianuro non ha alcun effetto sulla morte dei topi".

p>0.05

Ma questo è l'errore che gli autori sostengono che gli scienziati commettono abitualmente.

Ad esempio, nella tua figura, la linea rossa potrebbe derivare da uno studio su pochissimi topi, mentre la linea blu potrebbe derivare dallo stesso identico studio, ma su molti topi.

[60%,70%]65%. Quindi dovremmo scrivere che i nostri risultati sarebbero più compatibili con l'assunto che questa dose uccide il 65% dei topi, ma i nostri risultati sarebbero anche in qualche modo compatibili con percentuali che vanno da 60 a 70, e che i nostri risultati sarebbero meno compatibili con una verità al di fuori di questo intervallo. (Dovremmo anche descrivere quali ipotesi statistiche facciamo per calcolare questi numeri.)


4
Non sono d'accordo con l'affermazione generale secondo cui "l'assenza di prove non è una prova di assenza". I calcoli di potenza consentono di determinare la probabilità di ritenere significativo un effetto di una determinata dimensione, data una particolare dimensione del campione. Grandi dimensioni di effetti richiedono meno dati per considerarli significativamente diversi da zero, mentre piccoli effetti richiedono una dimensione di campione maggiore. Se il tuo studio è adeguatamente potenziato e non stai ancora riscontrando effetti significativi, puoi ragionevolmente concludere che l'effetto non esiste. Se si dispone di dati sufficienti, la non significatività può effettivamente indicare alcun effetto.
Nuclear Wang,

1
@NuclearWang Vero, ma solo se l'analisi del potere viene eseguita in anticipo e solo se viene eseguita con presupposti corretti e quindi interpretazioni corrette (ovvero, il tuo potere è rilevante solo per l' entità della dimensione dell'effetto che prevedi; "80% potenza "non significa che hai l'80% di probabilità di rilevare correttamente l' effetto zero ). Inoltre, nella mia esperienza, l'uso di "non significativo" per indicare "nessun effetto" viene spesso applicato a risultati secondari o eventi rari, per i quali lo studio non è (appropriatamente) alimentato comunque. Infine, la beta è in genere >> alfa.
Bryan Krause,

9
@NuclearWang, non penso che nessuno stia sostenendo che "l'assenza di prove non è MAI prova di assenza", penso che stiano sostenendo che non dovrebbe essere interpretato automaticamente come tale e che questo è l'errore che vedono le persone fare.
usul

È quasi come se le persone non fossero addestrate nei test di equivalenza o qualcosa del genere.
Alexis

19

Ci proverò.

  1. L'intervallo di confidenza (che rinominano intervallo di compatibilità) mostra i valori del parametro più compatibili con i dati. Ciò non significa che i valori al di fuori dell'intervallo siano assolutamente incompatibili con i dati.
  2. I valori vicino al centro dell'intervallo di confidenza (compatibilità) sono più compatibili con i dati rispetto ai valori vicino alle estremità dell'intervallo.
  3. Il 95% è solo una convenzione. È possibile calcolare il 90% o il 99% o qualsiasi% di intervalli.
  4. Gli intervalli di confidenza / compatibilità sono utili solo se l'esperimento è stato eseguito correttamente, se l'analisi è stata eseguita secondo un piano prestabilito e i dati sono conformi al presupposto dei metodi di analisi. Se i dati errati sono stati analizzati male, l'intervallo di compatibilità non è significativo o utile.

10

P>0.05P<0.05


8
(-1) I valori P non mostrano se un'ipotesi è probabilmente vera o falsa. È necessaria una distribuzione preventiva per questo. Vedi questo xkcd , per esempio. Il problematico sventolio della mano che porta a questa confusione è che se abbiamo priori simili per un gran numero di ipotesi, allora il valore p sarà proporzionale alla probabilità che sia vero o falso. Ma prima di vedere qualsiasi dato, alcune ipotesi sono molto più probabili di altre!
Cliff AB,

3
Mentre questo effetto è qualcosa che non dovrebbe essere scontato, è ben lungi dall'essere un punto significativo dell'articolo di riferimento.
RM

6

tl; dr : è fondamentalmente impossibile provare che le cose non sono correlate; le statistiche possono essere utilizzate solo per mostrare quando le cose sono correlate. Nonostante questo fatto consolidato, le persone spesso interpretano erroneamente una mancanza di significato statistico per implicare una mancanza di relazione.


Un buon metodo di crittografia dovrebbe generare un testo cifrato che, per quanto può dire un attaccante, non rivela alcuna relazione statistica con il messaggio protetto. Perché se un utente malintenzionato è in grado di determinare una sorta di relazione, può ottenere informazioni sui tuoi messaggi protetti semplicemente guardando i cifrari - che è una Bad Thing TM .

Tuttavia, il testo cifrato e il corrispondente testo in chiaro al 100% si determinano a vicenda. Quindi, anche se i migliori matematici del mondo non riescono a trovare alcuna relazione significativa, non importa quanto duramente ci provino, sappiamo ovviamente che la relazione non è solo lì, ma che è completamente e completamente deterministica. Questo determinismo può esistere anche quando sappiamo che è impossibile trovare una relazione .

Nonostante ciò, abbiamo ancora persone che faranno cose come:

  1. Scegli alcune relazioni che vogliono " smentire ".

  2. Fai qualche studio su di esso inadeguato per rilevare la presunta relazione.

  3. Segnala la mancanza di una relazione statisticamente significativa.

  4. Trasformalo in una mancanza di relazione.

Questo porta a tutti i tipi di " studi scientifici " che i media riferiranno (falsamente) come smentire l'esistenza di qualche relazione.

Se vuoi progettare il tuo studio intorno a questo, ci sono un sacco di modi in cui puoi farlo:

  1. Ricerca pigra:
    il modo più semplice, di gran lunga, è quello di essere incredibilmente pigri al riguardo. È proprio come da quella figura collegata alla domanda:

    'Non-significant' study(high P value)"

  2. Analisi pigra:
    per qualche ragione sciocca, alcune persone pensano che un coefficiente di correlazione di Pearson pari a significhi " nessuna correlazione ". Il che è vero, in un senso molto limitato. Ma, ecco alcuni casi da osservare: . Cioè, potrebbe non esserci una relazione " lineare ", ma ovviamente può esserci una relazione più complessa. E non ha bisogno di essere " crittografia " di livello complesso, ma piuttosto " è in realtà solo un po 'di una linea ondulata " o " ci sono due correlazioni " o qualsiasi altra cosa.0

  3. Risposta pigra:
    nello spirito di cui sopra, mi fermerò qui. Sai, sii pigro!

Ma, seriamente, l'articolo lo riassume bene in:

Cerchiamo di chiarire cosa deve fermarsi: non dovremmo mai concludere che non ci sia "nessuna differenza" o "nessuna associazione" solo perché un valore P è maggiore di una soglia come 0,05 o, equivalentemente, perché un intervallo di confidenza include zero.


+1 perché ciò che scrivi è sia vero che stimolante. Tuttavia, a mio modesto parere, puoi dimostrare che due quantità sono ragionevolmente non correlate sotto determinate ipotesi. Per prima cosa devi offorare supponendo, ad esempio, una certa distribuzione su di essi, ma ciò può essere basato sulle leggi della fisica o sulle statistiche (ad esempio, la velocità delle molecole di un gas in un contenitore dovrebbe essere gaussiana o così via)
dal

3
Sì, è difficile sapere come pronunciare alcune di queste cose, quindi ho lasciato molto fuori. Voglio dire, la verità generale è che non possiamo confutare l' esistenza di una relazione, sebbene in genere possiamo dimostrare che non esiste una relazione specifica. Sorta piace, non possiamo stabilire che due serie di dati non siano correlate, ma possiamo stabilire che non sembrano essere correlate in modo affidabile da una semplice funzione lineare.
Nat

1
-1 "tl; dr- È fondamentalmente impossibile dimostrare che le cose non sono correlate": i test di equivalenza forniscono la prova dell'assenza di un effetto all'interno di una dimensione arbitraria dell'effetto.
Alexis

2
@Alexis Penso che tu fraintenda i test di equivalenza; è possibile utilizzare il test di equivalenza per evidenziare l'assenza di una determinata relazione, ad esempio una relazione lineare, ma non provare l'assenza di alcuna relazione.
Nat

1
L'inferenza statistica di @Alexis può fornire altrettante prove dell'assenza di un effetto maggiore di una dimensione dell'effetto specifico nel contesto di alcuni modelli . Forse stai supponendo che il modello sarà sempre noto?
Nat

4

Per un'introduzione didattica al problema, Alex Reinhart ha scritto un libro completamente disponibile online e pubblicato su No Starch Press (con più contenuti): https://www.statisticsdonewrong.com

Spiega la radice del problema senza matematica sofisticata e ha capitoli specifici con esempi di set di dati simulati:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

Nel secondo collegamento, un esempio grafico illustra il problema del valore p. Il valore P è spesso usato come un singolo indicatore della differenza statistica tra i set di dati, ma chiaramente non è sufficiente da solo.

Modifica per una risposta più dettagliata:

In molti casi, gli studi mirano a riprodurre un tipo preciso di dati, misurazioni fisiche (ad esempio il numero di particelle in un acceleratore durante un esperimento specifico) o indicatori quantitativi (come il numero di pazienti che sviluppano sintomi specifici durante i test antidroga). In entrambi i casi, molti fattori possono interferire con il processo di misurazione come l'errore umano o le variazioni dei sistemi (le persone reagiscono in modo diverso allo stesso farmaco). Questo è il motivo per cui gli esperimenti vengono spesso eseguiti centinaia di volte, se possibile, e il test farmacologico viene eseguito, idealmente, su coorti di migliaia di pazienti.

P<0.05

Ciò porta alle strane conclusioni illustrate nell'articolo di Nature in cui due stesse misure danno gli stessi valori medi ma le conclusioni dei ricercatori differiscono a causa delle dimensioni del campione. Questo e altri trop dal vocabolario statistico e dalle abitudini stanno diventando sempre più importanti nelle scienze. Un altro aspetto del problema è che le persone tendono a dimenticare di usare strumenti statistici e di concludere sugli effetti senza un'adeguata verifica del potere statistico dei loro campioni.

Per un'altra illustrazione, recentemente le scienze sociali e della vita stanno attraversando una vera crisi di replicazione a causa del fatto che molti effetti sono stati dati per scontati da persone che non hanno verificato il corretto potere statistico di studi famosi (mentre altri hanno falsificato i dati ma questo è un altro problema).


3
Pur non essendo solo un collegamento, questa risposta ha tutte le caratteristiche salienti di una " risposta solo per collegamento ". Per migliorare questa risposta, si prega di inserire i punti chiave nella risposta stessa. Idealmente, la tua risposta dovrebbe essere utile come risposta anche se il contenuto dei collegamenti scompare.
RM

2
A proposito dei valori p e dell'errore di frequenza di base (menzionato nel tuo link), Veritasium ha pubblicato questo video chiamato trappola bayesiana .
jjmontes

2
Scusate allora, proverò a migliorare e sviluppare la risposta il prima possibile. La mia idea era anche quella di fornire materiale utile per il lettore curioso.
G.Clavier

1
@ G.Clavier e il neofita delle statistiche autodescritte e il lettore curioso lo apprezzano!
uhoh

1
@uhoh Sono contento di leggerlo. :)
G.Clavier

4

Per me, la parte più importante è stata:

... [Incoraggiamo] gli autori a discutere la stima puntuale, anche quando hanno un valore P elevato o un intervallo ampio, oltre a discutere i limiti di tale intervallo.

In altre parole: porre maggiore enfasi sulla discussione delle stime (centro e intervallo di confidenza) e minore enfasi sul "test di ipotesi nulla".

Come funziona in pratica? Molte ricerche si riducono alla misurazione delle dimensioni degli effetti, ad esempio "Abbiamo misurato un rapporto di rischio di 1,20, con un IC al 95% compreso tra 0,97 e 1,33". Questo è un riassunto adatto di uno studio. Puoi immediatamente vedere la dimensione dell'effetto più probabile e l'incertezza della misurazione. Utilizzando questo riepilogo, è possibile confrontare rapidamente questo studio con altri studi simili e idealmente è possibile combinare tutti i risultati in una media ponderata.

Sfortunatamente, tali studi sono spesso riassunti come "Non abbiamo riscontrato un aumento statisticamente significativo del rapporto di rischio". Questa è una valida conclusione dello studio sopra. Ma non è un riassunto adatto dello studio, perché non è possibile confrontare facilmente gli studi usando questo tipo di riassunti. Non sai quale studio ha avuto la misurazione più precisa e non puoi intuire quale potrebbe essere la scoperta di un meta-studio. E non ti accorgi immediatamente quando gli studi affermano "un aumento non significativo del rapporto di rischio" avendo intervalli di confidenza così grandi che puoi nascondere un elefante in loro.



1
θ±δθΔ

3

P


Grazie per il link! È una rivelazione per gli occhi; Non mi rendevo conto che ci fosse così tanto pensiero e dibattito su questo.
uhoh

2

È un dato di fatto che, per diversi motivi, i valori di p sono effettivamente diventati un problema.

Tuttavia, nonostante i loro punti deboli, presentano importanti vantaggi come la semplicità e la teoria intuitiva. Pertanto, sebbene nel complesso concordi con il Comment in Nature , penso che piuttosto che abbandonare completamente il significato statistico , sia necessaria una soluzione più equilibrata. Ecco alcune opzioni:

1. "Modifica della soglia predefinita del valore P per significatività statistica da 0,05 a 0,005 per rivendicazioni di nuove scoperte". A mio avviso, Benjamin et al affrontato molto bene gli argomenti più convincenti contro l'adozione di uno standard di prova più elevato.

2. Adozione dei valori p di seconda generazione . Questi sembrano essere una soluzione ragionevole alla maggior parte dei problemi che riguardano i valori p classici . Come Blume et al. Dicono qui , valori p di seconda generazione potrebbero aiutare a "migliorare il rigore, la riproducibilità e la trasparenza nelle analisi statistiche".

3. Ridefinire il valore p come "una misura quantitativa della certezza - un" indice di fiducia "- che una relazione osservata, o affermazione, è vera."Ciò potrebbe aiutare a cambiare l'obiettivo dell'analisi dal raggiungimento del significato alla stima appropriata di questa fiducia.

È importante sottolineare che "risultati che non raggiungono la soglia di significatività statistica o " fiducia " (qualunque essa sia) possono ancora essere importanti e meritare la pubblicazione su importanti riviste se affrontano importanti questioni di ricerca con metodi rigorosi".

Penso che ciò potrebbe aiutare a mitigare l'ossessione per i valori p da parte dei principali giornali, che è dietro l'abuso di valori p .


Grazie per la tua risposta, questo è utile. Passerò un po 'di tempo a leggere Blume et al. sui valori p di seconda generazione , sembra abbastanza leggibile.
uhoh

1
@uhoh, felice che la mia risposta sia utile alla tua domanda.
Krantz,

1

Una cosa che non è stata menzionata è che l'errore o il significato sono le stime statistiche, non le misurazioni fisiche effettive: dipendono fortemente dai dati disponibili e dal modo in cui vengono elaborati. Puoi fornire un valore preciso di errore e significato solo se hai misurato ogni possibile evento. Di solito non è così, tutt'altro!

Pertanto, ogni stima di errore o significatività, in questo caso un dato valore P, è per definizione inaccurata e non ci si deve fidare di descrivere la ricerca sottostante - per non parlare dei fenomeni! - con precisione. In effetti, non ci si deve fidare di trasmettere nulla sui risultati SENZA conoscenza di ciò che viene rappresentato, come è stato stimato l'errore e cosa è stato fatto per controllare la qualità dei dati. Ad esempio, un modo per ridurre l'errore stimato è rimuovere i valori anomali. Se questa rimozione viene eseguita anche statisticamente, come si può effettivamente sapere che i valori anomali erano errori reali anziché misurazioni reali improbabili che dovrebbero essere inclusi nell'errore? In che modo l'errore ridotto può migliorare la significatività dei risultati? Che dire delle misurazioni errate vicino alle stime? Essi migliorano l'errore e può influire sul significato statistico ma può portare a conclusioni errate!

Del resto, faccio modellistica fisica e ho creato modelli in cui l'errore 3-sigma è completamente non fisico. Cioè, statisticamente c'è circa un evento su mille (beh ... più spesso di quello, ma sto divagando) che porterebbe a un valore completamente ridicolo. L'ampiezza dell'errore di intervallo 3 nel mio campo equivale all'incirca alla stima migliore di 1 cm che risulta essere un metro ogni tanto. Tuttavia, questo è effettivamente un risultato accettato quando si fornisce un intervallo +/- statistico calcolato da dati fisici ed empirici nel mio campo. Certo, la ristrettezza dell'intervallo di incertezza è rispettata, ma spesso il valore della migliore stima dell'ipotesi è il risultato più utile anche quando l'intervallo di errore nominale sarebbe maggiore.

Come nota a margine, una volta ero personalmente responsabile di uno di quei valori anomali su mille. Stavo calibrando uno strumento quando si è verificato un evento che dovevamo misurare. Ahimè, quel punto dati sarebbe stato esattamente uno di quei 100 valori anomali, quindi in un certo senso accadono e sono inclusi nell'errore di modellazione!


"Puoi fornire misure accurate solo se hai misurato tutti gli eventi possibili." Hmm. Quindi, la precisione è senza speranza? E anche irrilevante? Si prega di espandere la differenza tra precisione e distorsione. Le stime imprecise sono distorte o imparziali? Se sono imparziali, non sono un po 'utili? "Ad esempio, un modo per ridurre l'errore è rimuovere i valori anomali." Hmm. Ciò ridurrà la varianza del campione, ma "errore"? "... spesso il valore della migliore stima dell'ipotesi è un risultato più utile anche quando l'intervallo di errore nominale sarebbe maggiore" Non nego che un buon precedente sia migliore di un cattivo esperimento.
Peter Leopold,

Modificato un po 'il testo in base al tuo commento. Ciò che intendevo era che la misura statistica dell'errore è sempre una stima a meno che tu non abbia tutti i possibili test individuali, per così dire, disponibili. Ciò accade raramente, tranne quando si esegue il polling, ad esempio, di un determinato numero di persone (nb non come campioni di una popolazione più ampia o di una popolazione generale).
Geenimetsuri,

1
Sono un professionista che utilizza le statistiche piuttosto che uno statistico. Penso che un problema di base con i valori di p sia che molti che non hanno familiarità con ciò che li confondono con significato sostanziale. Quindi mi è stato chiesto di determinare quali pendenze sono importanti usando i valori di p indipendentemente dal fatto che le pendenze siano grandi o meno. Un problema simile li sta usando per determinare l'impatto relativo delle variabili (che per me è fondamentale, ma che ottiene sorprendentemente poca attenzione nella letteratura sulla regressione).
user54285
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.