Un valore di distribuzione di probabilità superiore a 1 può essere OK?


149

Nella pagina Wikipedia sugli ingenui classificatori Bayes , c'è questa linea:

p(height|male)=1.5789 (Una distribuzione di probabilità su 1 è OK. È l'area sotto la curva della campana che è uguale a 1.)

Come può un valore essere OK? Pensavo che tutti i valori di probabilità fossero espressi nell'intervallo . Inoltre, dato che è possibile avere un valore del genere, come viene ottenuto nell'esempio mostrato nella pagina?>10p1


2
Quando ho visto che ho pensato che potrebbe essere l'altezza della funzione di densità di probabilità che può essere qualsiasi numero positivo purché quando sia integrato in qualsiasi intervallo, l'integrale è inferiore o uguale a 1. Wikipedia dovrebbe correggere quella voce.
Michael Chernick,

16
Poiché ciò potrebbe aiutare i futuri lettori, offro una traduzione geometrica della parte generale di questa domanda: "Come può una forma la cui area non supera può estendersi più di in qualsiasi direzione?" In particolare, la forma è quella parte del mezzo piano superiore delimitata sopra dal grafico del PDF e la direzione in questione è verticale. Nell'impostazione geometrica (priva dell'interpretazione della probabilità) è facile pensare ad esempi, come un rettangolo di base non maggiore di e l'altezza . 111/22
whuber

l'articolo di Wikipedia ora utilizza pP
lettere

Lo lascerò qui per il prossimo ragazzo: en.wikipedia.org/wiki/Dirac_delta_function
Joshua

Vale la pena notare che una funzione di distribuzione cumulativa (l'integrale del PDF) non può andare al di sopra di 1. Il CDF è molto più intuitivo da usare in molti casi.
nulla101

Risposte:


168

Quella pagina Wiki sta abusando del linguaggio facendo riferimento a questo numero come una probabilità. Hai ragione che non lo è. In realtà è una probabilità per piede . In particolare, il valore di 1.5789 (per un'altezza di 6 piedi) implica che la probabilità di un'altezza tra, diciamo, 5,99 e 6,01 piedi è vicina al seguente valore senza unità:

1.5789[1/foot]×(6.015.99)[feet]=0.0316

Questo valore non deve superare 1, come sai. (Il piccolo intervallo di altezze (0,02 in questo esempio) è una parte cruciale dell'apparato di probabilità. È il "differenziale" di altezza, che abbrevierò . Le probabilità per unità di qualcosa sono chiamate densità per analogia con altre densità, come la massa per unità di volume.d(height)

Le densità di probabilità in buona fede possono avere valori arbitrariamente grandi, anche infiniti.

Distribuzione gamma

Questo esempio mostra la funzione di densità di probabilità per una distribuzione gamma (con parametro di forma di e scala di ). Poiché la maggior parte della densità è inferiore a , la curva deve aumentare più di per avere un'area totale di come richiesto per tutte le distribuzioni di probabilità.3/21/5111

Distribuzione beta

Questa densità (per una distribuzione beta con parametri ) diventa infinita a e a . L'area totale è ancora finita (ed è uguale a )!1/2,1/10011


Il valore di 1,5789 / piede si ottiene in quell'esempio stimando che le altezze dei maschi hanno una distribuzione normale con media 5,855 piedi e varianza 3,50e-2 piedi quadrati. (Questo può essere trovato in una tabella precedente.) La radice quadrata di quella varianza è la deviazione standard, 0,18717 piedi. Esprimiamo nuovamente 6 piedi come il numero di SD dalla media:

z=(65.855)/0.18717=0.7747

La divisione per deviazione standard produce una relazione

dz=d(height)/0.18717

La densità di probabilità normale, per definizione, è uguale

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

(In realtà, ho imbrogliato: ho semplicemente chiesto a Excel di calcolare NORMDIST (6, 5.855, 0.18717, FALSE). Ma poi l'ho davvero confrontato con la formula, per essere sicuro.) Quando rimuoviamo il differenziale essenziale dalla formula rimane solo il numero , come il sorriso del gatto del Cheshire. Noi lettori dobbiamo capire che il numero deve essere moltiplicato per una piccola differenza nelle altezze per produrre una probabilità.d(height)1.5789


Prendo atto che l'esempio fornito su quella pagina wiki utilizza densità di probabilità al posto delle effettive probabilità per il calcolo dei posteriori, presumibilmente perché l'aspetto per unità non è necessario a fini comparativi se le unità confrontate sono uguali. Estendendo questo, se non si vuole assumere la normalità ma si hanno invece dati empirici da cui si può stimare la densità, ad esempio una stima della densità del kernel, sarebbe valido usare una lettura a un dato valore sull'asse x da questo kde come input per calcolare i posteriori in un classificatore bayes ingenuo, assumendo uguale per unità?
babelproofreader

1
@babelproofreader Credo che i posteriori siano aggiornamenti bayesiani, tramite i dati di addestramento, dei priori. Non è chiaro come un kde possa essere interpretato in modo simile, ma non sono un esperto in questo settore. La tua domanda è abbastanza interessante che potresti prendere in considerazione l'idea di pubblicarla separatamente.
whuber

Come si determina qual è un buon differenziale? E se invece avessi scelto un differenziale di 1? la probabilità sarebbe quindi maggiore di 1? Ci scusiamo per la mia confusione qui. Puoi spiegare?
fiacobelli,

3
@tree L'area di un triangolo è la metà del prodotto della lunghezza della sua base e della sua altezza.
whuber

1
@ user929304 Puoi fare riferimento a qualsiasi libro di testo teorico che ti piace: questo fa parte dei fondamenti di probabilità e statistica. Questo particolare concetto di densità di probabilità è ben discusso nei migliori libri di testo introduttivi, come Freedman, Pisani e Purves .
whuber

43

Questo è un errore comune dal non comprendere la differenza tra le funzioni di massa di probabilità, in cui la variabile è discreta, e le funzioni di densità di probabilità, in cui la variabile è continua. Vedi Cos'è una distribuzione di probabilità :

Le funzioni di probabilità continue sono definite per un numero infinito di punti in un intervallo continuo, la probabilità in un singolo punto è sempre zero. Le probabilità sono misurate su intervalli, non singoli punti. Cioè, l'area sotto la curva tra due punti distinti definisce la probabilità per quell'intervallo. Ciò significa che l'altezza della funzione di probabilità può in effetti essere maggiore di una. La proprietà secondo cui l'integrale deve essere uguale a una è equivalente alla proprietà per distribuzioni discrete che la somma di tutte le probabilità deve essere uguale a una.


14
Il NIST è generalmente autorevole, ma qui è tecnicamente errato (e non schematico da avviare): avere una probabilità definita in "un numero infinito di punti" non implica che "la probabilità in un singolo punto è sempre zero". Ovviamente stanno solo schivando una distrazione per le infinite cardinalità, ma il ragionamento qui è fuorviante. Sarebbe meglio per loro omettere la prima frase della citazione.
whuber

23

Penso che una distribuzione uniforme continua su un intervallo fornisca un chiaro esempio per questa domanda: in una distribuzione uniforme continua la densità in ciascun punto è la stessa in ciascun punto (distribuzione uniforme). Inoltre, poiché l'area sotto il rettangolo deve essere una (così come l'area sotto la curva normale deve essere una) quel valore di densità deve essere perché qualsiasi rettangolo con base e area deve avere altezza .[a,b]1/(ba)ba11/(ba)

Quindi il valore per la densità uniforme sull'intervallo è , sull'intervallo è , ...[0,0.5]1/(0.50)=2[0,0.1]10


4

Non so se l'articolo di Wikipedia è stato modificato in seguito ai post iniziali in questo thread, ma ora dice "Nota che qui un valore maggiore di 1 è OK - è una densità di probabilità piuttosto che una probabilità, perché l'altezza è una variabile continua. ", e almeno in questo contesto immediato, P è usato per probabilità e p è usato per densità di probabilità. Sì, molto sciatto poiché l'articolo usa p in alcuni punti per indicare la probabilità e in altri punti come densità di probabilità.

Torna alla domanda originale "Può un valore di distribuzione di probabilità superiore a 1 essere OK?" No, ma l'ho visto fatto (vedi il mio ultimo paragrafo di seguito).

Ecco come interpretare una probabilità> 1. Prima di tutto, nota che le persone possono e fanno uno sforzo del 150%, come spesso sentiamo negli sport e talvolta lavoriamo https://www.youtube.com/watch?v=br_vSdAOHQQ . Se sei sicuro che accadrà qualcosa, questa è una probabilità di 1. Una probabilità di 1,5 potrebbe essere interpretata poiché sei sicuro al 150% che l'evento accadrà, un po 'come dare uno sforzo del 150%.

E se puoi avere una probabilità> 1, suppongo che tu possa avere una probabilità <0. Le probabilità negative possono essere interpretate come segue. Una probabilità di 0,001 significa che non c'è quasi alcuna possibilità che l'evento accada. Probabilità = 0 significa "nessuna strada". Una probabilità negativa, come -1.2, corrisponde a "Stai scherzando".

Quando ero un ragazzino appena uscito da scuola 3 decenni fa, ho assistito a un evento più sorprendente che rompere la barriera del suono nell'aviazione, vale a dire, rompere la barriera dell'unità nella probabilità. Un analista con un dottorato di ricerca. in Physics aveva trascorso 2 anni a tempo pieno (probabilmente dando il 150%) allo sviluppo di un modello per il calcolo della probabilità di rilevare l'oggetto X, al termine del quale il suo modello e la sua analisi hanno completato con successo la revisione tra pari di numerosi scienziati e ingegneri strettamente affiliati agli Stati Uniti governo. Non ti dirò quale sia l'oggetto X, ma l'oggetto X, e la probabilità di rilevarlo, era ed è ancora di notevole interesse per il governo degli Stati Uniti. Il modello includeva una formula per = Prob (evento y accade). PyPye alcuni altri termini tutti combinati nella formula finale, che era Prob (l'oggetto X viene rilevato). In effetti, i valori calcolati di Prob (viene rilevato l'oggetto X) erano compresi nell'intervallo di [0,1], come è "tradizionale" nella probabilità nella tradizione di Kolmogorov. nella sua forma originale era sempre in [0,1] e implicava funzioni trascendentali "di varietà da giardino" che erano disponibili in Fortran standard o in qualsiasi calcolatore scientifico. Tuttavia, per un motivo noto solo all'analista e a Dio (forse perché l'aveva visto fatto nelle sue lezioni di fisica e nei suoi libri, ma non sapeva che gli erano stati mostrati i pochi casi in cui funziona, non molti altri dove lo fa no, e il nome di questo ragazzo e il giudizio scientifico / matematico non sono stati quelli di Dirac),PyPy(e ignora il termine residuo), che d'ora in poi verrà indicato come . Fu questa espansione a due termini di Taylor di che fu inserita nell'espressione finale per Prob (viene rilevato l'oggetto X). Ciò che non realizzò, fino a quando non glielo feci notare, fu che era pari a circa 1,2 usando i suoi valori di case base per tutti i parametri. In effetti era possibile perPyPyPyPyper salire a circa 1.8. Ed è così che la barriera di unità è stata rotta in probabilità. Ma il ragazzo non sapeva di aver compiuto questa impresa pionieristica fino a quando non glielo ho fatto notare, avendo appena eseguito rapidi calcoli su una calcolatrice scientifica Casio delle dimensioni di una carta di credito alimentata a batteria in una sala per conferenze buia (non avrei potuto farlo con un calcolatore ad energia solare). Sarebbe un po 'come se Chuck Yeager uscisse per un giro di domenica sul suo aereo, e solo dopo essere stato informato mesi dopo che aveva rotto la barriera del suono.


Bella storia. Hai qualche informazione in più su questo, come una citazione?
Jay Schyler Raadt

1
@ Jay Schyler Raadt Questo è documentato su stats.stackexchange.com/questions/4220/… , ah ah.
Mark L. Stone,

0

Quando la variabile casuale è continua e la sua funzione di densità di probabilità è , è una probabilità, ma non è una probabilità e può essere maggiore di una. La non è una probabilità, ma è.Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

In altre parole, per una variabile casuale continua , , e . Lo stesso vale per le probabilità condizionate.XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0


-1

Il valore in punti di un determinato valore di parametro di un diagramma della densità di probabilità sarebbe una probabilità, giusto? In tal caso, la frase potrebbe essere corretta semplicemente cambiando P (altezza | maschio) in L (altezza | maschio).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.