Una "Distribuzione normale" deve avere modalità media = mediana =?


17

Sono stato in un dibattito con il mio professore di statistica a livello universitario su "distribuzioni normali". Io sostengo che per ottenere veramente una distribuzione normale bisogna avere la modalità media = mediana =, tutti i dati devono essere contenuti sotto la curva a campana e perfettamente simmetrici attorno alla media. Pertanto, tecnicamente, praticamente non ci sono distribuzioni normali negli studi reali e dovremmo chiamarle qualcos'altro, forse "quasi normale".

Dice che sono troppo esigente, e se l'inclinazione / la curtosi sono inferiori a 1,0, è una distribuzione normale e ha preso punti su un esame. Il set di dati è il numero totale di cadute / anno in un campionamento casuale di 52 case di cura, che è un campione casuale di una popolazione più ampia. Qualche idea?

Problema:

DOMANDA: 3. Calcola le misure di asimmetria e curtosi per questi dati. Includi un istogramma con una curva normale. Discuti i tuoi risultati. I dati sono normalmente distribuiti?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

un. Esistono più modalità. Viene visualizzato il valore più piccolo

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

La mia risposta:

I dati sono platicattici e presentano solo una leggera inclinazione positiva e NON sono una distribuzione normale perché media e mediana e modalità non sono uguali e i dati non sono distribuiti uniformemente attorno alla media. In realtà praticamente nessun dato è mai una distribuzione normale perfetta, anche se possiamo discutere di "distribuzioni approssimativamente normali" come altezza, peso, temperatura o lunghezza dell'anulare adulto in grandi gruppi di popolazione.

Risposta del professore:

Hai ragione sul fatto che non esiste una distribuzione perfettamente normale. Ma non stiamo cercando la perfezione. Dobbiamo esaminare i dati oltre all'istogramma e alle misure di tendenza centrale. Cosa dicono le statistiche di asimmetria e kurtosi riguardo alla distribuzione? Poiché sono entrambi tra i valori critici di -1 e +1, questi dati sono considerati normalmente distribuiti.


3
Mi piacerebbe conoscere l'esatta formulazione del tuo professore. In linea di principio una distribuzione normale ha media, mediana e modalità identiche (ma così fanno molte altre distribuzioni) e ha asimmetria 0 e (cosiddetto eccesso) kurtosi 0 (e così anche altre distribuzioni). Nella migliore delle ipotesi una distribuzione con (ad es.) Leggera asimmetria o curtosi è approssimativamente normale. Si noti che quasi tutti i dati reali sono le migliori approssimazioni alle distribuzioni nominate nel serraglio teorico.
Nick Cox,

22
Non sono d'accordo con @ user2974951 In compagnia di ogni buon testo che conosco sono perfettamente felice di pensare che la distribuzione normale abbia una mediana e una modalità. E questo si applica ampiamente alle distribuzioni continue, anche se non ho dubbi sul fatto che si possano identificare contro-esempi patologici.
Nick Cox,

4
Grazie per il dettaglio specifico, che mostra merito su entrambi i lati, ma non sto valutando nessuno dei due. Tuttavia, dissenso fortemente dal termine valori critici usato dal tuo Professore, poiché i limiti per l'asimmetria e la curtosi non hanno alcun valore al di là dell'essere regole empiriche che potrebbero essere utilizzate. A seconda di ciò che si sta facendo con i dati, un'asimmetria < 1 potrebbe andare di pari passo con il voler trasformare i dati e un'asimmetria di > 1 potrebbe andare di pari passo con l'abbandono dei dati, e allo stesso modo per la curtosi. ±1<1>1
Nick Cox,

6
Se ci lasciamo seriamente abbracciare l'arte del nitpicking, dovremmo osservare che non ci sono cadute negative e che le cadute sono discrete, quindi la distribuzione di fatto non può essere normale. Questo rende la domanda nulla in primo luogo. Su una nota più seria, la domanda è chiaramente un esempio fabbricato che mira a verificare regole pratiche specifiche. In realtà, a seconda dell'obiettivo del nostro studio, può essere ragionevole o non assumere una distribuzione normale. In verità non lo sapremo mai, dato che abbiamo solo un campione.
Ioannis,

5
@ user2974951 Dovresti considerare di eliminare il tuo primo commento, quindi, dato che ora non sei d'accordo. Finora ha ingannato tre lettori nel segnalare che sono d'accordo!
whuber

Risposte:


25

Un problema con la tua discussione con il professore è di terminologia, c'è un malinteso che sta ostacolando la trasmissione di un'idea potenzialmente utile. In luoghi diversi, entrambi commettete errori.

Quindi la prima cosa da affrontare: è importante essere abbastanza chiari su cosa sia una distribuzione .

Una distribuzione normale è un oggetto matematico specifico, che potresti considerare come modello per una popolazione infinita di valori. (Nessuna popolazione finita può effettivamente avere una distribuzione continua.)

Liberamente, ciò che fa questa distribuzione (una volta specificati i parametri) è definire (tramite un'espressione algebrica) la proporzione dei valori della popolazione che si trova all'interno di un dato intervallo sulla linea reale. Leggermente meno vagamente, definisce la probabilità che un singolo valore di quella popolazione risieda in un dato intervallo.

Un campione osservato non ha realmente una distribuzione normale; un campione potrebbe (potenzialmente) essere estratto da una distribuzione normale, se esistesse. Se guardi il cdf empirico del campione, è discreto. Se lo bin (come in un istogramma) il campione ha una "distribuzione di frequenza", ma quelle non sono distribuzioni normali. La distribuzione può dirci alcune cose (in senso probabilistico) su un campione casuale della popolazione, e un campione può anche dirci alcune cose sulla popolazione.

Un'interpretazione ragionevole di una frase come "campione normalmente distribuito" * è "un campione casuale da una popolazione normalmente distribuita".

* (In genere cerco di evitare di dirlo io stesso, per ragioni che si spera siano chiarite abbastanza qui; di solito riesco a limitarmi al secondo tipo di espressione.)

Avendo termini definiti (se ancora un po 'vagamente), ora esaminiamo la domanda in dettaglio. Mi rivolgerò a pezzi specifici della domanda.

distribuzione normale si deve avere media = mediana = modalità

Questa è certamente una condizione per la normale distribuzione di probabilità, sebbene non sia un requisito per un campione prelevato da una distribuzione normale; i campioni possono essere asimmetrici, la media può differire dalla mediana e così via. [Possiamo, tuttavia, avere un'idea di quanto lontano potremmo ragionevolmente aspettarci che siano se il campione proviene davvero da una popolazione normale.]

tutti i dati devono essere contenuti sotto la curva a campana

Non sono sicuro di cosa significhi "contenuto sotto" in questo senso.

e perfettamente simmetrico attorno alla media.

No; stai parlando dei dati qui e un campione di una popolazione normale (sicuramente simmetrica) non sarebbe di per sé perfettamente simmetrico.

Pertanto, tecnicamente, praticamente non ci sono distribuzioni normali in studi reali,

Sono d'accordo con la tua conclusione ma il ragionamento non è corretto; non è una conseguenza del fatto che i dati non sono perfettamente simmetrici (ecc.); è il fatto che le popolazioni stesse non sono perfettamente normali .

se l'inclinazione / la curtosi sono inferiori a 1,0 è una distribuzione normale

Se lo dicesse in questo modo, si sbaglia sicuramente.

Un'asimmetria del campione può essere molto più vicina a 0 di quella (prendendo "meno di" per indicare in grandezza assoluta non un valore reale), e la curtosi in eccesso del campione può anche essere molto più vicina a 0 di quella (potrebbero anche, per caso o costruzione, potenzialmente essere quasi esattamente zero), eppure la distribuzione da cui è stato estratto il campione può essere chiaramente chiaramente non normale.

Possiamo andare oltre - anche se dovessimo sapere magicamente che l' asimmetria della popolazione e la curtosi erano esattamente quelle di una normale, non ci direbbe comunque che la popolazione era normale, e nemmeno qualcosa di simile alla normale.

Il set di dati è il numero totale di cadute / anno in un campionamento casuale di 52 case di cura, che è un campione casuale di una popolazione più ampia.

La distribuzione della popolazione dei conteggi non è mai normale. I conteggi sono discreti e non negativi, le distribuzioni normali sono continue e su tutta la linea reale.

Ma siamo davvero concentrati sul problema sbagliato qui. I modelli di probabilità sono proprio questo, modelli . Non confondiamo i nostri modelli con la cosa reale .

Il problema non è "i dati stessi sono normali?" (non possono essere), e neppure "la popolazione da cui i dati sono stati estratti è normale?" (questo non sarà quasi mai il caso).

Una domanda più utile da discutere è "quanto sarebbe grave la mia inferenza se trattassi la popolazione come normalmente distribuita?"

È anche una domanda molto più difficile da rispondere bene e potrebbe richiedere molto più lavoro che dare un'occhiata ad alcune semplici diagnosi.

Le statistiche di esempio che hai mostrato non sono particolarmente incompatibili con la normalità (potresti vedere statistiche del genere o "peggio" non molto raramente se avessi campioni casuali di quelle dimensioni da popolazioni normali), ma ciò non significa di per sé che la popolazione effettiva da cui il campione è stato prelevato viene automaticamente "abbastanza vicino" alla normalità per un determinato scopo. Sarebbe importante considerare lo scopo (a quali domande stai rispondendo) e la solidità dei metodi impiegati per esso, e anche allora potremmo ancora non essere sicuri che sia "abbastanza buono"; a volte potrebbe essere meglio non assumere ciò che non abbiamo buone ragioni per assumere a priori (ad es. sulla base dell'esperienza con insiemi di dati simili).

NON è una distribuzione normale

I dati - anche i dati ricavati da una popolazione normale - non hanno mai esattamente le proprietà della popolazione; da quei soli numeri non hai una buona base per concludere che la popolazione non è normale qui.

D'altra parte, non abbiamo nemmeno una base ragionevolmente solida per dire che è "sufficientemente vicino" alla normalità - non abbiamo nemmeno considerato lo scopo di assumere la normalità, quindi non sappiamo a quali caratteristiche distributive potrebbe essere sensibile.

Ad esempio, se avessi due campioni per una misurazione delimitata, che sapevo non sarebbe stata molto discreta (non solo prendendo solo alcuni valori distinti) e ragionevolmente vicina alla simmetria, sarei relativamente felice di usare un due campioni test t ad una dimensione del campione non così piccola; è moderatamente robusto a lievi deviazioni dalle ipotesi (piuttosto robusto a livello, non così potente). Ma sarei molto più cauto riguardo all'assunzione causale della normalità quando testiamo l'uguaglianza di diffusione, ad esempio, perché il miglior test sotto tale presupposto è abbastanza sensibile all'ipotesi.

Poiché sono entrambi compresi tra i valori critici di -1 e +1, questi dati sono considerati normalmente distribuiti. "

Se questo è davvero il criterio in base al quale si decide di utilizzare un normale modello distributivo, a volte può condurre ad analisi piuttosto scadenti.

I valori di tali statistiche ci danno alcuni indizi sulla popolazione da cui è stato tratto il campione, ma non è affatto la stessa cosa che suggerire che i loro valori siano in qualche modo una "guida sicura" nella scelta di un'analisi.


Ora per affrontare il problema di fondo con una versione ancora migliore di una domanda come quella che avevi:

L'intero processo di visualizzazione di un campione per la scelta di un modello è irto di problemi: ciò altera le proprietà di eventuali successive scelte di analisi basate su ciò che hai visto! ad es. per un test di ipotesi, i livelli di significatività, i valori di p e la potenza non sono tutti quelli che sceglieresti / calcoli , perché tali calcoli sono basati sull'analisi non basata sui dati.

Vedi, per esempio, Gelman e Loken (2014), " The Statistical Crisis in Science ", American Scientist , Volume 102, Number 6, p 460 (DOI: 10.1511 / 2014.111.460) che discute questioni con tale analisi dipendente dai dati.


Ciao Peter, scusami non ho nemmeno visto il tuo post lì.
Glen_b -Restate Monica

Questa conversazione è stata spostata in chat .
Glen_b

41

Ti manca il punto e probabilmente stai anche diventando "difficile", il che non è apprezzato nel settore. Ti sta mostrando un esempio di giocattolo, per addestrarti nella valutazione della normalità di un set di dati, vale a dire se il set di dati proviene da una distribuzione normale . Guardare i momenti di distribuzione è un modo per verificare la normalità, ad esempio il test di Jarque Bera si basa su tale valutazione.

Sì, la distribuzione normale è perfettamente simmetrica. Tuttavia, se si estrae un campione da una vera distribuzione normale, molto probabilmente quel campione non sarà perfettamente simmetrico. Questo è il punto che ti manca completamente. Puoi testarlo molto facilmente da solo. Basta generare un campione dalla distribuzione gaussiana e verificarne il momento. Non saranno mai perfettamente "normali", nonostante il vero distribuzione sia tale.

Ecco un esempio sciocco di Python. Sto generando 100 campioni di 100 numeri casuali, quindi ottengo le loro medie e mediane. Stampo il primo campione per mostrare che media e mediana sono diverse, quindi mostra l'istogramma della differenza tra media e mediana. Puoi vedere che è piuttosto stretto, ma la differenza non è praticamente mai zero. Si noti che i numeri provengono veramente da una distribuzione normale .

codice:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

uscite: inserisci qui la descrizione dell'immagine

PS

Ora, se l'esempio della tua domanda debba essere considerato normale o meno dipende dal contesto. Nel contesto di ciò che è stato insegnato nella tua classe, ti sbagli, perché il tuo professore voleva vedere se conosci la regola empirica che ti ha dato, che è che l'inclinazione e l' eccessiva curtosi devono essere in -1 a 1 gamma.

Personalmente non ho mai usato questa particolare regola empirica (non posso definirla una prova) e non sapevo nemmeno che esistesse. Apparentemente, alcune persone in alcuni campi lo usano però. Se dovessi inserire i descrittori del tuo set di dati nel test JB, questo avrebbe respinto la normalità. Quindi, non sbagli nel suggerire che l'insieme di dati non è normale, ovviamente, ma ti sbagli in un certo senso che non hai applicato la regola che ti aspettavi sulla base di ciò che è stato insegnato in classe.

Se fossi in te, mi avvicinerei educatamente al tuo professore e mi spiegherei, oltre a mostrare l'output del test JB. Riconoscerei che, in base al suo test, la mia risposta era sbagliata, ovviamente. Se si tenta di discutere con lei nel modo in cui si discute qui, le possibilità sono molto basse per ottenere il punto nel test, poiché il tuo ragionamento è debole su mediane, mezzi e campioni, mostra la mancanza di comprensione dei campioni rispetto alle popolazioni. Se cambi la tua melodia, allora avrai un caso.


23
(+1) Esattamente il punto. Confondere la variabile casuale e un campione di realizzazioni da quella variabile casuale.
Xi'an,

15
t

Sarebbe giusto dire che se i tuoi campioni fossero perfettamente distribuiti normalmente, questa è una prova evidente che i campioni non sono casuali?
JimmyJames,

@JimmyJames, 4 anni fa c'era un articolo su Science che sosteneva che una conversazione di 20 minuti con un canvasser gay potesse cambiare i tuoi sentimenti nei confronti delle persone gay. Si scopre che gli autori hanno raccolto i dati del loro sondaggio. Erano troppo pigri e generavano perfettamente rumore gaussiano, ed è così che sono stati catturati - vedi Irregularities in LaCour (2014) di Broockman et al
Aksakal,

@Aksakal Non sono sicuro che sia esattamente la stessa cosa di quello che sto chiedendo. In quel caso, penso che l'argomento in quel caso fosse che i dati reali non sono mai perfettamente normali. Sto partendo dalla tua affermazione "Tuttavia, se disegni un campione da una vera distribuzione normale, molto probabilmente quel campione non sarà perfettamente simmetrico." Se sto campionando in modo casuale da una distribuzione normale perfetta, non mi aspetterei che ogni punto dati successivo cadrà nel posto in cui deve essere per riempire una curva normale perfetta. A me sembrerebbe un processo di selezione non casuale.
JimmyJames,

6

L'insegnante è chiaramente fuori dal suo elemento e probabilmente non dovrebbe insegnare le statistiche. Mi sembra peggio insegnare qualcosa di sbagliato piuttosto che non insegnarlo affatto.

Tutti questi problemi potrebbero essere chiariti facilmente se la distinzione tra "dati" e "processo che ha prodotto i dati" fosse resa più chiara. I dati hanno come target il processo che ha prodotto i dati. La distribuzione normale è un modello per questo processo.

Non ha senso parlare se i dati sono normalmente distribuiti. Per un motivo, i dati sono sempre discreti. Per un altro motivo, la distribuzione normale descrive un'infinità di quantità potenzialmente osservabili, non un insieme finito di specifiche quantità osservate.

Inoltre, la risposta alla domanda "è il processo che ha prodotto i dati un processo normalmente distribuito " è anche sempre "no", indipendentemente dai dati. Due semplici motivi: (i) qualsiasi misura che prendiamo è necessariamente discreta, essendo arrotondata ad un certo livello. (ii) la perfetta simmetria, come un cerchio perfetto, non esiste in natura osservabile. Ci sono sempre imperfezioni.

Nella migliore delle ipotesi, la risposta alla domanda "cosa ti dicono questi dati sulla normalità del processo di generazione dei dati" potrebbe essere data come segue: "questi dati sono coerenti con ciò che ci aspetteremmo di vedere, se i dati provenissero davvero da un processo normalmente distribuito ". Tale risposta non giunge alla conclusione che la distribuzione sia normale.

Questi problemi sono facilmente comprensibili usando la simulazione. Simula semplicemente i dati di una normale distribuzione e confronta quelli con i dati esistenti. Se i dati sono conteggi (0,1,2,3, ...), ovviamente il modello normale è errato perché non produce numeri come 0,1,2,3, ...; invece, produce numeri con decimali che vanno avanti per sempre (o almeno per quanto consentito dal computer). Tale simulazione dovrebbe essere la prima cosa da fare quando si impara a conoscere la questione della normalità. Quindi puoi interpretare più correttamente i grafici e le statistiche di riepilogo.


10
Non ho declassato la tua risposta, ma considera che stai giudicando un professore di laurea dalle parole di uno studente. Quanto è probabile che uno studente abbia ragione e che un insegnante abbia torto? Non è più probabile che lo studente stia travisando il suo professore e il contesto della conversazione?
Aksakal,

In base alla mia esperienza e alle parole degli studenti, direi che è più probabile che l'insegnante abbia torto. Ci sono insegnanti con poca formazione formale che insegnano corsi, anche corsi di laurea, nelle università di tutto il mondo. Se le agenzie di accreditamento sapessero solo la verità!
Peter Westfall,

6
@ Possum-Pie, posso immaginare cosa ci si aspetta da te. Probabilmente è un corso di 101 anni nelle statistiche, quindi devi guardare l'asimmetria e la curtosi. Se non sono abbastanza vicini a 0 e 3, allora dici che non è normale. È tutto. In effetti è quello che fa il test JB in modo più formale. Il punto dell'esercizio è che ti ricordi che Gaussian ha distorto 0 e la curtosi 3. Stai trasformando questo esercizio sciocco ma necessario in una discussione filosofica.
Aksakal,

2
Il commento dell'insegnante "Poiché sono entrambi tra i valori critici di -1 e +1, questi dati sono considerati normalmente distribuiti" mostra sicuramente (i) mancanza di comprensione o (ii) volontà di insegnare ciò che lui / lei conosce essere errati. Non penso che sia una discussione filosofica mettere in discussione la preparazione degli insegnanti o i metodi pedagogici.
Peter Westfall,

3
Il linguaggio della "coerenza" è buono. Ma come ha osservato Possum-Pie, gli insegnanti dicono agli studenti ", sulla base di questo test / diagnostica, i dati sono normali", il che è errato sotto diversi aspetti. Gli insegnanti (psichici e non) devono (i) distinguere il processo di generazione dei dati dai dati, (ii) dire agli studenti che i modelli normali e altri sono modelli per il processo di generazione dei dati, (iii) dire loro che la distribuzione normale è sempre come modello sbagliato, indipendentemente dalla diagnostica, e (iv) dire loro che il punto dell'esercizio è diagnosticare il grado di non normalità, non rispondere sì / no. Quindi spiega perché è importante.
Peter Westfall,

4

Sono un ingegnere, quindi nel mio mondo lo statistico applicato è quello che vedo di più e ottengo il valore più concreto. Se hai intenzione di lavorare in applicazione, allora devi essere solidamente basato sulla teoria: se è elegante, l'aereo deve volare e non schiantarsi.

Quando penso a questa domanda il modo in cui mi rivolgo, come hanno fatto anche molti dei miei scommettitori tecnici qui, è pensare a "come appare nel mondo reale con la presenza del rumore".

La seconda cosa che faccio è, spesso, fare una simulazione che mi permetta di mettere le mani intorno alla domanda.

Ecco una breve esplorazione:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Dà questo come output: inserisci qui la descrizione dell'immagine

Nota: fare attenzione all'asse x, poiché è in scala logaritmica, non in scala uniforme.

So che la media e la mediana sono esattamente le stesse. Lo dice il codice. La realizzazione empirica è molto sensibile alle dimensioni del campione e se non ci sono campioni veramente infiniti, allora non potranno mai eguagliare perfettamente con la teoria.

Puoi pensare se l'incertezza nella mediana avvolge la media stimata o viceversa. Se la migliore stima della media rientra nell'IC del 95% della stima per la mediana, i dati non possono distinguere. I dati dicono che sono gli stessi in teoria. Se ottieni più dati, vedi cosa dice.


1
Grafico interessante. Avrei pensato che la Media sarebbe stata generalmente più grande della mediana all'inizio considerando i valori anomali che inseguono ... in altre parole le barre rosse sarebbero medie e il verde sarebbe mediane. Cosa mi sto perdendo?
Possum-Pie,

1
@ Possum-Pie Ricorda che gli outlier possono essere in entrambe le direzioni ... la distribuzione normale ha sia una coda sinistra che una coda destra!
Pesciolini d'argento

2
@Questa è un'implementazione piuttosto standard di un boxplot.
Glen_b -Restate Monica,

1
@Glen_b Ho visto molti libri di testo che non insegnano l'uso dei punti per i valori anomali, quindi posso capire che qualcuno non è abituato a loro. Ma secondo Hadley , i punti sono stati lì anche quando Tukey ha introdotto il suo "diagramma schematico" nel 1970.
Silverfish

1
Sì, una versione senza valori anomali (basata solo su un riepilogo di 5 numeri) sarebbe essenzialmente la trama della gamma di Mary Spear (1952). (NB: il documento manca di alcuni importanti precursori storici del boxplot, prima del 1952)
Glen_b -Restate Monica

4

Nelle statistiche mediche, abbiamo sempre e solo commentato le forme e l'apparenza delle distribuzioni. Il fatto che nessun campione finito discreto possa mai essere normale è irrilevante e pedante. Ti segnerei per quello.

Se una distribuzione sembra "principalmente" normale, ci sentiamo a nostro agio nel chiamarla normale. Quando descrivo le distribuzioni per un pubblico non statistico, mi sento molto a mio agio nel chiamare qualcosa di approssimativamente normale anche quando so che la distribuzione normale non è il modello di probabilità sottostante, ho la sensazione che mi schiererei dal tuo insegnante qui ... ma noi non ha istogrammi o set di dati da verificare.

Come suggerimento, esaminerei molto attentamente le seguenti ispezioni:

  • chi sono gli outlier, quanti e quali sono i loro valori?
  • I dati sono bimodali?
  • I dati sembrano assumere una forma distorta in modo che alcune trasformazioni (come un registro) possano quantificare meglio la "distanza" tra le osservazioni?
  • È evidente il troncamento o l'heaping in modo che i test o i laboratori non riescano a rilevare in modo affidabile un determinato intervallo di valori?

Sembra in un campo con così tanta matematica, che la gente sarebbe più severa nel dire che qualcosa è "distribuzione normale" che ha alcune conotazioni molto rigide, e dire che è "quasi normale". Non direi mai che 1.932 è 2. ma posso dire che è quasi 2.
Possum-Pie,

1
"Irrilevante e pedante"? Sul serio? Sono d'accordo con Possum-Pie. Inoltre non direi mai che 1.932 è uguale a 2.0. Dire che i dati sono "normali" confonde tutto, dal significato della distribuzione normale come modello per il processo che ha prodotto i dati, al fatto reale che le normali distribuzioni non modellano mai esattamente i nostri processi. A tutti dovrebbe essere insegnato che quando imparano la distribuzione normale in modo da non fare dichiarazioni sciocche.
Peter Westfall,

2
@PeterWestfall Penso che parte del problema qui sia che "i dati provengono da una distribuzione normale" non è quasi mai letteralmente vero, e anche se fosse vero, sarebbe probabilmente impossibile dimostrarlo in modo conclusivo. Quindi, poiché la frase non sarebbe quasi mai letteralmente vera, le persone useranno invece "i dati sono normali" come una breve scorciatoia per significare "i dati sembrano abbastanza vicini alla normalità per scopi pratici" o "la distribuzione normale è una buona- modello sufficiente per il nostro DGP ".
Silverfish,

Quindi perché insegnare cosa è sbagliato quando è così semplice insegnare cosa è giusto?
Peter Westfall,

3
@PeterW Il punto linguistico non riguarda solo l'insegnamento, riguarda il modo in cui la frase viene usata (e intesa per essere interpretata) nella vita di tutti i giorni: "i dati sono normali" non è quasi mai usato per significare "lo so per certo che la popolazione da cui sono stati campionati i dati è normale ", perché non poteva quasi mai significare questo. Sarebbe bello se la gente ha detto "i dati sembra normale" o anche "gli sguardi di dati normalish " (cioè sembra abbastanza vicino alla normalità che non ci preoccupiamo per la sua deviazione dalla normalità), ma soprattutto in una cornice applicata la gente spesso dire cose del genere.
Silverfish,

2

Penso che tu e il tuo professore parliate in un contesto diverso. L'uguaglianza della modalità media = mediana = è caratteristica della distribuzione teorica e questa non è l'unica caratteristica. Non si può dire che se per qualsiasi distribuzione al di sopra della proprietà trattenuta, la distribuzione è normale. Anche la distribuzione a T è simmetrica ma non è normale. Quindi, stai parlando delle proprietà teoriche della distribuzione normale che sono sempre vere per la distribuzione normale.

Il tuo professore sta parlando della distribuzione di dati campione. Ha ragione, non otterrai mai dati nella vita reale, dove troverai mean = median = mode. Ciò è semplicemente dovuto all'errore di campionamento . Allo stesso modo, è molto improbabile, otterrai un coefficiente zero di asimmetria per i dati del campione e zero curtosi in eccesso. Il tuo professore ti sta semplicemente dando una semplice regola per avere un'idea della distribuzione dalle statistiche di esempio. Ciò non è vero in generale (senza ottenere ulteriori informazioni).


3
Si dice che il professore sia femaie.
Nick Cox,

Perché non ottieni mean = median = mode è principalmente perché molte distribuzioni sono davvero distorte! (Rigorosamente, mean = median = mode è possibile anche con distribuzioni distorte, nonostante ciò che dicono molti libri di testo.)
Nick Cox,

1
Non sono d'accordo sul fatto che la mancanza di uguaglianza di media / mediana / modalità = errore di campionamento. Supponiamo che siano state campionate casualmente 52 case di cura per i tassi di caduta. Le case 27, 34 e 52 sono a corto di personale cronico e hanno sempre un numero di cadute superiore alla media. Quelle case spingono verso la coda e non sono dovute a un errore di campionamento.
Possum-Pie,

1
@Possum Pie Quali sono i dati qui è secondario ma stai dando segnali diversi in luoghi diversi. Qui parli di diverse case di cura, ma nella tua domanda dichiari "in una casa di cura". Essere poco chiari anche sui dettagli accidentali non aiuta.
Nick Cox,

@ Nick Cox Siamo spiacenti, l'ho chiarito. Numero di cadute / anno in un campione di 52 case di cura
Possum-Pie,

1

Ai fini pratici, i processi sottostanti come questo di solito sono finemente approssimati dalla normale distribuzione senza che nessuno alzi un sopracciglio.

Tuttavia, se si desidera essere pedanti il ​​processo sottostante in questo caso non può essere normalmente distribuito, perché non può produrre valori negativi (il numero di cadute non può essere negativo). Non sarei sorpreso se fosse in realtà almeno una distribuzione bimodale con un secondo picco vicino allo zero.


È bimodale con modalità a 4 cadute e 13 cadute. Non ci sono cadute zero segnalate.
Possum-Pie,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.