Numero di cifre significative da segnalare


12

Esiste un modo più scientifico per determinare il numero di cifre significative da riferire per una media o un intervallo di confidenza in una situazione abbastanza standard, ad esempio la prima classe al college.

Ho visto Numero di cifre significative da mettere in una tabella , perché non usiamo cifre significative e numero di figure significative in forma quadrata chi , ma queste non sembrano mettere il dito sul problema.

Nelle mie lezioni cerco di spiegare ai miei studenti che è uno spreco di inchiostro riportare 15 cifre significative quando hanno un errore standard così ampio nei loro risultati - la mia sensazione è che dovrebbe essere arrotondato a circa un punto dell'ordine di . Questo non è troppo diverso da quanto affermato da ASTM - Risultati dei test di segnalazione riferiti a E29, dove dicono che dovrebbe essere compreso tra e .0,05 σ 0,5 σ0.25σ0.05σ0.5σ

MODIFICARE:

Quando ho una serie di numeri come di xseguito, quante cifre dovrei usare per stampare la media e la deviazione standard?

set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109

DOMANDA: Descrivi in ​​dettaglio qual è la precisione (quando c'è un vettore di numeri a doppia precisione) per la deviazione media e standard in questo e scrivi una semplice funzione pedagogica R che stamperà la deviazione media e standard sul numero significativo di cifre che si riflette nel vettore x.


Non capisco perché "Numero di cifre significative da mettere in una tabella" non affronti completamente la tua domanda: a che punto manca quella domanda?
whuber

Mi piace la tua risposta a questa domanda @whuber, ma vorrei un po 'più di dettaglio.
Sean,

1
Ma i dettagli su cosa? In ogni caso, sembra che la tua domanda sia davvero un duplicato esatto di quella e ciò che vorresti è vedere miglioramenti delle sue risposte. Ho ragione? A proposito, se stai cercando una guida pedagogica, vorrei indicarti un esempio (specializzato) che ho pubblicato su gis.stackexchange.com/questions/8650 relativo alla segnalazione di coordinate geografiche: l'idea che c'è di associare i numeri di significativi cifre con oggetti di dimensioni che la maggior parte dei lettori afferrerà prontamente e intuitivamente. Un approccio simile potrebbe funzionare bene in altre applicazioni.
whuber

1
@whuber sì, hai ragione, e mi piace quell'esempio. Suppongo che sto cercando maggiori dettagli su come la precisione è correlata alla deviazione standard. Ad esempio in R, x <- rnorm (30); media (x); sd (x) # qui chiaramente lo sd è di circa 1 ma in R la media è stampata di default con 7 cifre di precisione. sd (x) / 30 è circa 0,18. Grazie
Sean il

In R(oltre a quasi tutti i software) la stampa è controllata da un valore globale (vedi options(digits=...)), non da alcuna considerazione della precisione.
whuber

Risposte:


9

La Guida all'incertezza nella misurazione (GUM) raccomanda che l'incertezza sia riportata con non più di 2 cifre e che il risultato sia riportato con il numero di cifre significative necessarie per renderlo coerente con l'incertezza. Vedere la Sezione 7.2.2 di seguito

http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf

Il seguente codice è stato il mio tentativo di implementare questa raccomandazione in R. Noe che R può non essere collaborativo con i tentativi di conservare gli zeri finali nell'output, anche se sono significativi.

gumr <- function(x.n,x.u) {
  z2 <- trunc(log10(x.u))+1
  z1 <- round(x.u/(10^z2),2)
  y1 <- round(x.n*10^(-z2),2)
  list(value=y1*10^z2,uncert=z1*10^z2)
}

x.val <- 8165.666
x.unc <- 338.9741
gumr(x.val,x.unc)

Per completezza: > gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
rhombidodecahedron,

@rhombidodecahedron non dovrebbe l'incertezza avere solo una cifra significativa qui? 82 ± 3 (× 10²)
jfs

@jfs la raccomandazione dice di usare due cifre significative nell'incertezza, no?
rhombidodecahedron

@rhombidodecahedron la risposta dice "non più di 2" I criteri in GUM non sono chiari per me. La tabella 3 di arxiv.org/pdf/1301.1034.pdf suggerisce 1 cifra significativa da riportare per meno di 7 misurazioni.
jfs

Il codice di esempio non segue la regola GUM suggerita. Se val = 8165.666e unc = 338.9741, la misurazione deve essere riportata come val = 8.17(34)*10^3(non val = 8170con unc = 340come indicato), per chiarire che solo due cifre dell'incertezza sono significative.
divenex

6

Se mostri l'intervallo di confidenza e il valore della statistica, allora non c'è alcun problema nel dare tutte le cifre significative che desideri, poiché in quel caso un gran numero di cifre significative non implica una precisione spuria come l'intervallo di confidenza dà un 'indicazione del probabile precisione effettiva (un intervallo di credibilità sarebbe meglio). Si tratta quindi essenzialmente di rendere il tavolo pulito, conciso e leggibile, quindi in sostanza è improbabile che ci sia una semplice regola che si adatta a tutte le occasioni.

La replicabilità è importante negli studi scientifici, quindi idealmente dovrebbe essere possibile riprodurre i risultati su un numero qualsiasi di figure originali (che abbiano o meno un significato pratico). L'arrotondamento a un numero limitato di cifre significative potrebbe ridurre la fiducia in una replica di uno studio poiché gli errori potrebbero essere mascherati dall'arrotondamento dei risultati, quindi in alcune circostanze è possibile che si verifichi un arrotondamento.

Un altro motivo per non arrotondare troppo è che può rendere impossibile per gli altri estendere il tuo studio senza realmente ripeterlo. Ad esempio, potrei pubblicare un documento che confronta i vari algoritmi di apprendimento automatico utilizzando il test di Friedman, che dipende dalle classifiche dei diversi algoritmi su un set di set di dati di riferimento. Se le statistiche dei singoli classificatori su ciascun set di dati vengono fornite a una serie di cifre significative a seconda dei loro errori standard, ciò creerà senza dubbio molti legami apparenti nelle classifiche. Ciò significa che (i) un lettore / revisore del documento non sarà in grado di replicare il test di Friedman dai risultati forniti nel documento e (ii) qualcun altro non sarebbe quindi in grado di valutare il proprio algoritmo sui set di dati di riferimento e utilizzare Friedman test per metterlo nel contesto dei risultati del mio studio.


4

Sicuramente qualsiasi decisione, presa oggettivamente o soggettivamente, dipenderebbe fortemente da ciò che stai misurando e dalla precisione del tuo strumento di misura. Quest'ultima è solo una parte della variazione osservata e non è sempre facile discernere o trovare prove esistenti per. Pertanto sospetto fortemente che non vi sia alcuna decisione obiettiva e universalmente applicabile. Devi solo usare il tuo cervello e dare il miglior giudizio in ogni situazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.