Qual è il concetto statistico più difficile da comprendere?


32

Questa è una domanda simile a quella qui , ma abbastanza diversa penso che valga la pena chiedere.

Pensavo di iniziare, quello che penso sia uno dei più difficili da capire.

Il mio è la differenza tra probabilità e frequenza . Uno è al livello di "conoscenza della realtà" (probabilità), mentre l'altro è al livello di "realtà stessa" (frequenza). Questo mi rende quasi sempre confuso se ci penso troppo.

Edwin Jaynes Coniato un termine chiamato "errore di proiezione mentale" per descrivere come mescolare queste cose.

Qualche idea su altri concetti difficili da comprendere?


(Non ne so abbastanza per metterlo come una risposta, quindi aggiungendo un commento.) Ho sempre pensato che fosse strano che il PI si trasformasse in equazioni statistiche. Voglio dire: cosa c'entra l'IP con le statistiche? :)
Ripristina Monica - Arrivederci SE

2
Concordo (nella mia sorpresa) - penso che sia che compare in molte analisi matematiche. Solo una nota è possibile scrivere π con i comandi Latex come \ pi racchiuso tra $ segni. Uso la pagina wiki per ottenere la sintassi en.wikibooks.org/wiki/LaTeX/Mathematics . Un altro trucco è "fare clic con il tasto destro" su un'equazione che vedi su questo sito e selezionare "mostra sorgente" per ottenere i comandi che sono stati usati. ππ\pi
Probislogic,

@Wiki Se accetti che cresca quando passi dalla misurazione della lunghezza di un tratto diritto alla lunghezza di un cerchio, non vedo perché non appaia mentre passi dalla misurazione della probabilità a cadere su un segmento per misurare la probabilità di cadere in un pezzo di cerchio? π
Robin Girard,

@Wiki Ogni volta che hai funzioni trigonometriche (seno, coseno, tangente ecc.) Rischi di far apparire . E ricorda che ogni volta che ottieni una funzione stai effettivamente trovando una tangente. Ciò che sorprende è che π non appare più spesso. ππ
Carlos Accioly,

@Carlos Sospetto che la prevalenza di sia principalmente dovuta all'uso della metrica 2 , che porta a n-sfere. Allo stesso modo, mi sarei aspettato di essa la posta cui prevalenza è dovuto ad analisi. 2π2e
sabato

Risposte:


31

per qualche ragione, le persone hanno difficoltà a comprendere cosa sia realmente un valore p.


3
@shabbychef: la maggior parte delle persone lo affronta nel peggiore dei modi, ad esempio la probabilità di commettere un errore di tipo I.
suncoolsu,

2
Penso che sia principalmente legato al modo in cui i valori di p sono spiegati nelle classi (cioè: semplicemente dando una definizione rapida e senza specificare quali valori di p NON sono)
nico

Penso che ciò abbia principalmente a che fare con il modo in cui viene introdotto. Per me, è stato un "componente aggiuntivo" al classico test di ipotesi - quindi sembra che sia solo un altro modo per fare un test di ipotesi. L'altro problema è che di solito viene insegnato solo rispetto a una distribuzione normale, in cui tutto "funziona bene" (ad esempio, il valore p è una misura di prova nel testare una media normale). Generalizzare il valore p non è facile in quanto non vi sono principi specifici per guidare la generalizzazione (ad es. Non esiste un accordo generale su come un valore p dovrebbe variare con la dimensione del campione e confronti multipli)
Probislogic

@shabbychef +1 sebbene lo studente abbia spesso difficoltà con i valori p (approssimativamente perché il concetto nel testing è un po 'più sottile di un processo decisionale binario ed è causa di "inversione di una funzione" non facile da comprendere). Quando dici "per qualche ragione" vuoi dire che non è chiaro per te perché le persone hanno difficoltà? PS: Se potessi, proverei a fare statistiche su questo sito sulla relazione tra "essere la risposta migliore" e "parlare di p-value" :). Mi chiedo anche se il concetto statistico più difficile da comprendere possa avere il massimo voto (se è difficile da capire ... :))
Robin Girard

1
@eduardo - sì, un valore p abbastanza piccolo è sufficiente a mettere in dubbio l'ipotesi nulla: ma viene calcolato in completo isolamento con un'alternativa. Utilizzando solo i valori p, non è mai possibile "rifiutare" formalmente , poiché non è stata specificata alcuna alternativa . Se rifiuti formalmente H 0 , devi anche rifiutare i calcoli basati sul presupposto che H 0 sia vero, il che significa che devi rifiutare il calcolo del valore p che è stato derivato da questo presupposto (si scherza con la testa , ma è l'unico modo di ragionare in modo coerente ). H0H0H0
Probislogic

23

Simile alla risposta di Shabbychef, è difficile comprendere il significato di un intervallo di confidenza nelle statistiche frequentiste. Penso che l'ostacolo maggiore sia che un intervallo di confidenza non risponde alla domanda a cui vorremmo rispondere. Vorremmo sapere "qual è la possibilità che il vero valore sia all'interno di questo particolare intervallo?" Invece, possiamo solo rispondere: "qual è la possibilità che un intervallo scelto casualmente creato in questo modo contenga il vero parametro?" Quest'ultimo è ovviamente meno soddisfacente.


1
Più penso agli intervalli di confidenza, più è difficile per me pensare a quale tipo di domanda possono rispondere a livello concettuale a cui non è possibile rispondere chiedendo "la possibilità che un valore reale sia all'interno di un intervallo, dato il proprio stato di conoscenza". Se dovessi chiedere "qual è la possibilità (in base alle mie informazioni) che il reddito medio nel 2010 fosse compreso tra 10.000 e 50.000?" Non credo che la teoria degli intervalli di confidenza possa dare una risposta a questa domanda.
Probislogic,

21

Qual è il significato di "gradi di libertà"? Che ne dici di df che non sono numeri interi?


13

La probabilità condizionale probabilmente porta alla maggior parte degli errori nell'esperienza quotidiana. Ci sono molti concetti più difficili da comprendere, ovviamente, ma le persone di solito non devono preoccuparsi di loro - questo non è in grado di scappare ed è una fonte di disavventura dilagante.


+1; potresti aggiungere un esempio o due, preferiti o attuali?
denis

1
Per cominciare: P (hai la malattia | il test è positivo)! = P (il test è positivo | hai la malattia).
xmjx,

9

Penso che pochissimi scienziati capiscano questo punto di base: è possibile interpretare i risultati delle analisi statistiche al valore nominale solo se ogni fase è stata pianificata in anticipo. In particolare:

  • La dimensione del campione deve essere selezionata in anticipo. Non va bene continuare ad analizzare i dati man mano che vengono aggiunti più soggetti, fermandosi quando i risultati sembrano buoni.
  • Qualsiasi metodo utilizzato per normalizzare i dati o escludere valori anomali deve essere deciso in anticipo. Non va bene analizzare vari sottogruppi di dati fino a quando non trovi i risultati che ti piacciono.
  • E infine, ovviamente, i metodi statistici devono essere decisi in anticipo. Non va bene analizzare i dati tramite metodi parametrici e non parametrici e scegliere i risultati che ti piacciono.

I metodi esplorativi possono essere utili per esplorare. Ma poi non puoi voltarti ed eseguire test statistici regolari e interpretare i risultati nel solito modo.


5
Penso che John Tukey potrebbe non essere d'accordo en.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran Marsupial,

3
Non sarei parzialmente in disaccordo qui. Penso che l'avvertimento che manca alla gente è che le operazioni di condizionamento appropriate sono facili da ignorare per questo tipo di problemi. Ognuna di queste operazioni cambia le condizioni dell'inferenza e, quindi, cambia le condizioni della sua applicabilità (e quindi della sua generalità). Questi sono sicuramente applicabili solo all '"analisi di conferma", in cui sono stati costruiti un modello e una domanda ben definiti. In fase esplorativa, non cercando di rispondere a domande definite, ma piuttosto cercando di costruire un modello e di elaborare ipotesi per i dati.
Probislogic,

Ho modificato un po 'la mia risposta per tenere conto dei commenti di Dikran e probabilità. Grazie.
Harvey Motulsky,

1
Per me, "i valori anomali esclusi" non sono così chiaramente sbagliati come implica la tua risposta. Ad esempio, potresti essere interessato solo alle relazioni in un determinato intervallo di risposte, e l'esclusione degli outlier aiuta effettivamente questo tipo di analisi. Ad esempio, se si desidera modellare le entrate della "classe media", è una buona idea escludere i valori anomali super ricchi e impoveriti. Sono solo i valori anomali all'interno della tua cornice di inferenza (ad es. Osservazioni "strane" della classe media) in cui si applicano i tuoi commenti
Probislogic,

2
In definitiva, il vero problema con i problemi sollevati nella risposta iniziale è che essi (almeno parzialmente) invalidano i valori p. Se sei interessato a quantificare un effetto osservato, dovresti essere in grado di fare qualsiasi cosa sopra impunemente.
Russellpierce,

9

Lingua saldamente nella guancia: per i frequentatori, il concetto bayesiano di probabilità; per i bayesiani, il concetto frequentista di probabilità. ; O)

Entrambi hanno ovviamente un merito, ma può essere molto difficile capire perché un framework sia interessante / utile / valido se la tua comprensione dell'altro è troppo ferma. La convalida incrociata è un buon rimedio in quanto porre domande e ascoltare le risposte è un buon modo per imparare.


2
Regolo che uso per ricordare: usa le probabilità per prevedere le frequenze. Una volta che le frequenze sono state osservate, usale per valutare le probabilità che hai assegnato. La cosa sfortunatamente confusa è che, spesso la probabilità che assegni è uguale a una frequenza che hai osservato. Una cosa che ho sempre trovato strana è perché i frequentatori usano anche la parola probabilità? non renderebbe più facile comprendere i loro concetti se fosse usata la frase "la frequenza di un evento" anziché "la probabilità di un evento"?
Probislogic,

p(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi

8

Dalla mia esperienza personale il concetto di probabilità può anche suscitare molto scalpore, specialmente per i non statistici. Come dice Wikipedia, molto spesso è confuso con il concetto di probabilità, che non è esattamente corretto.



6

Cosa rappresentano realmente le diverse distribuzioni, oltre a come vengono utilizzate.


3
Questa è stata la domanda che ho trovato più fonte di distrazione dopo le statistiche 101. Avrei incontrato molte distribuzioni senza alcuna motivazione al di là di "proprietà" che erano rilevanti per gli argomenti in questione. Ci volle un tempo inaccettabilmente lungo per scoprire cosa rappresentasse.
sabato

1
Il "pensiero" della massima entropia è un metodo che aiuta a capire cos'è una distribuzione, vale a dire uno stato di conoscenza (o una descrizione dell'incertezza su qualcosa). Questa è l'unica definizione che ha avuto senso per me in tutte le situazioni
probabilistica il

Ben Bolker fornisce una buona panoramica di ciò nella sezione "bestia delle distribuzioni" di Modelli e dati ecologici in R
David LeBauer,

5

Penso che la domanda sia interpretabile in due modi, che darà risposte molto diverse:

1) Per le persone che studiano statistiche, in particolare a un livello relativamente avanzato, qual è il concetto più difficile da comprendere?

2) Quale concetto statistico viene frainteso dalla maggior parte delle persone?

Per 1) Non conosco affatto la risposta. Qualcosa dalla teoria delle misure, forse? Qualche tipo di integrazione? Non lo so.

Per 2) valore p, le mani verso il basso.


La teoria delle misure non è né un campo statistico né un settore difficile. Alcuni tipi di integrazione sono difficili, ma, ancora una volta, non sono statistiche.
pyon,

5

L'intervallo di confidenza nella tradizione non bayesiana è difficile.


5

Penso che la prima volta in giro manchi la barca praticamente su tutto. Penso che ciò che la maggior parte degli studenti non capisca è che di solito stimano i parametri sulla base di campioni. Non conoscono la differenza tra una statistica campione e un parametro di popolazione. Se batti queste idee nella loro testa, le altre cose dovrebbero seguire un po 'più facilmente. Sono sicuro che la maggior parte degli studenti non capisce nemmeno il punto cruciale del CLT.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.