Un problema con la tua discussione con il professore è di terminologia, c'è un malinteso che sta ostacolando la trasmissione di un'idea potenzialmente utile. In luoghi diversi, entrambi commettete errori.
Quindi la prima cosa da affrontare: è importante essere abbastanza chiari su cosa sia una distribuzione .
Una distribuzione normale è un oggetto matematico specifico, che potresti considerare come modello per una popolazione infinita di valori. (Nessuna popolazione finita può effettivamente avere una distribuzione continua.)
Liberamente, ciò che fa questa distribuzione (una volta specificati i parametri) è definire (tramite un'espressione algebrica) la proporzione dei valori della popolazione che si trova all'interno di un dato intervallo sulla linea reale. Leggermente meno vagamente, definisce la probabilità che un singolo valore di quella popolazione risieda in un dato intervallo.
Un campione osservato non ha realmente una distribuzione normale; un campione potrebbe (potenzialmente) essere estratto da una distribuzione normale, se esistesse. Se guardi il cdf empirico del campione, è discreto. Se lo bin (come in un istogramma) il campione ha una "distribuzione di frequenza", ma quelle non sono distribuzioni normali. La distribuzione può dirci alcune cose (in senso probabilistico) su un campione casuale della popolazione, e un campione può anche dirci alcune cose sulla popolazione.
Un'interpretazione ragionevole di una frase come "campione normalmente distribuito" * è "un campione casuale da una popolazione normalmente distribuita".
* (In genere cerco di evitare di dirlo io stesso, per ragioni che si spera siano chiarite abbastanza qui; di solito riesco a limitarmi al secondo tipo di espressione.)
Avendo termini definiti (se ancora un po 'vagamente), ora esaminiamo la domanda in dettaglio. Mi rivolgerò a pezzi specifici della domanda.
distribuzione normale si deve avere media = mediana = modalità
Questa è certamente una condizione per la normale distribuzione di probabilità, sebbene non sia un requisito per un campione prelevato da una distribuzione normale; i campioni possono essere asimmetrici, la media può differire dalla mediana e così via. [Possiamo, tuttavia, avere un'idea di quanto lontano potremmo ragionevolmente aspettarci che siano se il campione proviene davvero da una popolazione normale.]
tutti i dati devono essere contenuti sotto la curva a campana
Non sono sicuro di cosa significhi "contenuto sotto" in questo senso.
e perfettamente simmetrico attorno alla media.
No; stai parlando dei dati qui e un campione di una popolazione normale (sicuramente simmetrica) non sarebbe di per sé perfettamente simmetrico.
Pertanto, tecnicamente, praticamente non ci sono distribuzioni normali in studi reali,
Sono d'accordo con la tua conclusione ma il ragionamento non è corretto; non è una conseguenza del fatto che i dati non sono perfettamente simmetrici (ecc.); è il fatto che le popolazioni stesse non sono perfettamente normali .
se l'inclinazione / la curtosi sono inferiori a 1,0 è una distribuzione normale
Se lo dicesse in questo modo, si sbaglia sicuramente.
Un'asimmetria del campione può essere molto più vicina a 0 di quella (prendendo "meno di" per indicare in grandezza assoluta non un valore reale), e la curtosi in eccesso del campione può anche essere molto più vicina a 0 di quella (potrebbero anche, per caso o costruzione, potenzialmente essere quasi esattamente zero), eppure la distribuzione da cui è stato estratto il campione può essere chiaramente chiaramente non normale.
Possiamo andare oltre - anche se dovessimo sapere magicamente che l' asimmetria della popolazione e la curtosi erano esattamente quelle di una normale, non ci direbbe comunque che la popolazione era normale, e nemmeno qualcosa di simile alla normale.
Il set di dati è il numero totale di cadute / anno in un campionamento casuale di 52 case di cura, che è un campione casuale di una popolazione più ampia.
La distribuzione della popolazione dei conteggi non è mai normale. I conteggi sono discreti e non negativi, le distribuzioni normali sono continue e su tutta la linea reale.
Ma siamo davvero concentrati sul problema sbagliato qui. I modelli di probabilità sono proprio questo, modelli . Non confondiamo i nostri modelli con la cosa reale .
Il problema non è "i dati stessi sono normali?" (non possono essere), e neppure "la popolazione da cui i dati sono stati estratti è normale?" (questo non sarà quasi mai il caso).
Una domanda più utile da discutere è "quanto sarebbe grave la mia inferenza se trattassi la popolazione come normalmente distribuita?"
È anche una domanda molto più difficile da rispondere bene e potrebbe richiedere molto più lavoro che dare un'occhiata ad alcune semplici diagnosi.
Le statistiche di esempio che hai mostrato non sono particolarmente incompatibili con la normalità (potresti vedere statistiche del genere o "peggio" non molto raramente se avessi campioni casuali di quelle dimensioni da popolazioni normali), ma ciò non significa di per sé che la popolazione effettiva da cui il campione è stato prelevato viene automaticamente "abbastanza vicino" alla normalità per un determinato scopo. Sarebbe importante considerare lo scopo (a quali domande stai rispondendo) e la solidità dei metodi impiegati per esso, e anche allora potremmo ancora non essere sicuri che sia "abbastanza buono"; a volte potrebbe essere meglio non assumere ciò che non abbiamo buone ragioni per assumere a priori (ad es. sulla base dell'esperienza con insiemi di dati simili).
NON è una distribuzione normale
I dati - anche i dati ricavati da una popolazione normale - non hanno mai esattamente le proprietà della popolazione; da quei soli numeri non hai una buona base per concludere che la popolazione non è normale qui.
D'altra parte, non abbiamo nemmeno una base ragionevolmente solida per dire che è "sufficientemente vicino" alla normalità - non abbiamo nemmeno considerato lo scopo di assumere la normalità, quindi non sappiamo a quali caratteristiche distributive potrebbe essere sensibile.
Ad esempio, se avessi due campioni per una misurazione delimitata, che sapevo non sarebbe stata molto discreta (non solo prendendo solo alcuni valori distinti) e ragionevolmente vicina alla simmetria, sarei relativamente felice di usare un due campioni test t ad una dimensione del campione non così piccola; è moderatamente robusto a lievi deviazioni dalle ipotesi (piuttosto robusto a livello, non così potente). Ma sarei molto più cauto riguardo all'assunzione causale della normalità quando testiamo l'uguaglianza di diffusione, ad esempio, perché il miglior test sotto tale presupposto è abbastanza sensibile all'ipotesi.
Poiché sono entrambi compresi tra i valori critici di -1 e +1, questi dati sono considerati normalmente distribuiti. "
Se questo è davvero il criterio in base al quale si decide di utilizzare un normale modello distributivo, a volte può condurre ad analisi piuttosto scadenti.
I valori di tali statistiche ci danno alcuni indizi sulla popolazione da cui è stato tratto il campione, ma non è affatto la stessa cosa che suggerire che i loro valori siano in qualche modo una "guida sicura" nella scelta di un'analisi.
Ora per affrontare il problema di fondo con una versione ancora migliore di una domanda come quella che avevi:
L'intero processo di visualizzazione di un campione per la scelta di un modello è irto di problemi: ciò altera le proprietà di eventuali successive scelte di analisi basate su ciò che hai visto! ad es. per un test di ipotesi, i livelli di significatività, i valori di p e la potenza non sono tutti quelli che sceglieresti / calcoli , perché tali calcoli sono basati sull'analisi non basata sui dati.
Vedi, per esempio, Gelman e Loken (2014), " The Statistical Crisis in Science ", American Scientist , Volume 102, Number 6, p 460 (DOI: 10.1511 / 2014.111.460) che discute questioni con tale analisi dipendente dai dati.