Numero di cifre significative da inserire in una tabella?


13

Esiste una regola ben fondata per il numero di cifre significative da pubblicare?

Ecco alcuni esempi / domande specifici:

  • Esiste un modo per mettere in relazione il numero di cifre significative con il coefficiente di variazione? Ad esempio, se la stima è 12.3 e il CV è del 50%, significa che le informazioni rappresentate da ".3" si avvicinano a zero?

  • Se un intervallo di confidenza ha un intervallo di ordini di grandezza, devono comunque avere lo stesso numero di cifre significative, ad esempio:

    12,3 (1,2, 123,4) vs 12 (1,2, 120)

  • Il numero di cifre significative in una stima dell'errore deve essere uguale o inferiore al numero di cifre significative in una media?


Se puoi, non usare una tabella :) Un grafico è, IMO, quasi sempre più facile da leggere di una tabella (la sua ovvia eccezione è se non hai molti numeri). Le riviste e i loro revisori non sono sempre d'accordo, purtroppo ....
JMS

3
@JMS Un buon punto, ma le tabelle sono utili per riassumere le caratteristiche dettagliate delle unità statistiche (classificate in base a un fattore di interesse, ad es. Diagnosi clinica o altro), con variabili di diverso tipo (continue, nominali e ordinali) e altri risultati derivati dalla modellistica statistica di per sé (matrice di confusione, coefficiente di regressione, ecc.) che non si adatta alle figure (o non sempre se si pensa all'approccio di Gelman per mostrare il diagramma dei registri come diagrammi a punti). Abbiamo bisogno di entrambi; la domanda è quando abbiamo davvero bisogno di una figura anziché di una tabella, IMO.
chl

Fiera @chi. L'ho detto quasi sempre :). Cose come le grandi tabelle n-way sono impossibili da riprodurre (completamente) graficamente. Dipende dal forum direi. Le tabelle hanno il vantaggio di essere complete, certo, ma il tuo lettore effettivamente assorbe tutte quelle informazioni extra? Se ci sono troppi parametri da inserire in un grafico, direi che una tabella è spesso almeno difficile da leggere. Tuttavia, penso che i risultati completi dovrebbero essere accessibili (online, appendice, ecc.) Se non altro per la riproducibilità. In quel caso, però, vorrei anche dati e codice! Ho vagato OT, scusa ..
JMS

Penso anche che i coefficienti di regressione e le matrici di confusione (correlazione, covarianza, ...) siano generalmente più adatti a un display grafico, dotplot o simili per il primo e mappe di calore o grafici per il secondo.
JMS

@JMS Sono d'accordo con il tuo punto, ma in questo caso esiste un limite di cifre, in altri casi ci sono addebiti di cifre. Inoltre, in questo caso se i lettori danno un'occhiata al tavolo e si concentrano sulle figure presentate, allora non perderanno tempo nel tentativo di capire il punto di una figura esoterica. Ma supporto pienamente la riproducibilità e mentre ci sono, potrei (se ci arrivo) aggiungere una visualizzazione della tabella al codice allegato.
David LeBauer,

Risposte:


19

Dubito che ci sia una regola universale, quindi non tratterò. Posso condividere questi pensieri e le ragioni dietro di loro:

  • Quando i riepiloghi riflettono i dati stessi - max, min, statistiche degli ordini, ecc. - Utilizzare lo stesso numero di cifre significative utilizzate per registrare i dati in primo luogo. Ciò fornisce una rappresentazione coerente in tutto il documento per quanto riguarda la precisione dei dati.

  • nn3n3030<n300

    -Nota che il CV non fornisce informazioni utili al riguardo.

    -Alcune stime possono essere ottenute con grande precisione. Non devono essere arrotondati per abbinare qualcos'altro. Ad esempio, la media di 1.000.000 di numeri interi potrebbe essere 10.977 con un errore standard di 0,00301. La mia decisione di scrivere la media con tre cifre decimali (e 4-5 sigg) era basata sull'ordine di grandezza della SE, che indica che l'ultima cifra è parzialmente affidabile. La decisione di scrivere la SE su tre sigilli (cinque decimali) è più arbitraria: due sigilli funzionerebbero; uno probabilmente non lo farebbe; anche i quattro fichi di sigla funzionerebbero e sarebbero coerenti con i fichi di 4-5 sig nella media; più di quattro sigilli sarebbero eccessivi. (Si potrebbe stimare l'errore standard della SE stessa in termini di quarto momento dei dati, e usarlo per determinare una quantità appropriata di arrotondamento, ma la maggior parte di noi non si mette così in difficoltà ...)

  • Segnala al lettore quando stai eseguendo un arrotondamento sostanziale . Prestare particolare attenzione quando il rapporto sta discutendo il test statistico stesso . Il motivo è che le persone possono usare il tuo lavoro per controllare i propri calcoli. A volte anche una leggera differenza può rivelare un errore. Non vuoi causare problemi perché hai arrotondato 123 a 120 e qualcun altro, controllando il lavoro, ottiene 123 e sospetta che uno di voi abbia commesso un errore.

  • Sii coerente . Potresti perdere alcuni lettori se elenchi un valore come 123 in un punto e successivamente lo fai riferimento come 120.

  • Non essere ridicolo . (Sospetto automaticamente l'incompetenza quando mi imbatto in segnalazioni che danno risultati statistici a 15 segnali, quando i dati hanno solo due segni, per esempio.)


2
Il mio +1 molto grande perché è davvero un sacco di buoni consigli. Allo stesso modo, mi piace mostrare agli studenti che è davvero inutile riassumere i dati raccolti dai sondaggi (o voti) in% con molti decimali senza considerare le dimensioni del campione (che influisce sull'errore standard).
chl

0

Suggerirei 12 (1.2, 123.4). Ometti lo .3 poiché è quasi insignificante, ma molte persone quando vedono (1.2, 120) presumono che l'ultimo '0' in 120 sia significativo.


Perché suggerisci di omettere un decimale per la statistica di interesse se accetti di mostrarli negli EC (cioè, se è insignificante per 12, perché ha senso per 123.4)?
chl

@chl: non ha molto senso, ma ometterlo potrebbe essere fuorviante. Se inserisco 123.4, qualcuno come te vedrà le cifre extra e le ignorerà, senza alcun danno. Se inserisco 120, molti lettori penseranno che questo sia accurato a 3 cifre - cattivo.
AVB,

non è ancora chiaro il motivo per cui si consiglia 123.4 anziché 123 (perché omettere .3 ma non .4 nell'esempio?)
David LeBauer,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.