Considera un insieme casuale di numeri che sono normalmente distribuiti:
x <- rnorm(n=1000, mean=10)
Vorremmo conoscere la media e l'errore standard sulla media, quindi facciamo quanto segue:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
Grande!
Tuttavia, supponiamo che non sappiamo necessariamente che la nostra distribuzione originale segue una distribuzione normale. Trasformiamo i dati in trasformazioni ed eseguiamo lo stesso calcolo degli errori standard.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Bene, ma ora abbiamo bisogno di tornare indietro per ottenere la nostra risposta in unità NON unità di registro.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
La mia domanda: Perché, per una distribuzione normale, l'errore standard differisce a seconda che sia stato calcolato dalla distribuzione stessa o se sia stato trasformato, calcolato e trasformato indietro? Nota: i mezzi sono usciti allo stesso modo indipendentemente dalla trasformazione.
EDIT # 1: In definitiva, sono interessato a calcolare una media e intervalli di confidenza per i dati non normalmente distribuiti, quindi se puoi dare una guida su come calcolare gli IC del 95% sui dati trasformati, incluso il modo di tornare indietro alle loro unità native , Lo apprezzerei!
FINE EDIT # 1
EDIT # 2: ho provato a usare la funzione quantile per ottenere gli intervalli di confidenza al 95%:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Quindi, quello convergeva sulla stessa risposta, il che è positivo. Tuttavia, l'utilizzo di questo metodo non fornisce lo stesso intervallo esatto utilizzando dati non normali con campioni "piccoli":
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Quale metodo sarebbe considerato "più corretto". Presumo che uno sceglierebbe la stima più prudente?
Ad esempio, riferiresti questo risultato per i dati non normali (t) come aventi una media di 0,92 unità con un intervallo di confidenza del 95% di [0,211, 4,79]?
FINE EDIT # 2
Grazie per il tuo tempo!