"L'area totale sotto una funzione di densità di probabilità è 1" - rispetto a cosa?


20

Concettualmente afferro il significato della frase "l'area totale sotto un PDF è 1". Dovrebbe significare che le probabilità che il risultato sia nell'intervallo totale delle possibilità è del 100%.

Ma non riesco davvero a capirlo da un punto di vista "geometrico". Se, ad esempio, in un PDF l'asse x rappresenta la lunghezza, l'area totale sotto la curva non diventerebbe più grande se x fosse misurato in mm anziché in km?

Cerco sempre di immaginare come apparirebbe l'area sotto la curva se la funzione fosse appiattita su una linea retta. L'altezza (posizione sull'asse y) di quella linea sarebbe la stessa per qualsiasi PDF o avrebbe un valore dipendente dall'intervallo sull'asse x per cui è definita la funzione?


Potresti cambiare la scala dell'asse da km a mm ma a cosa corrisponderebbe? Avresti comunque la stessa identica immagine e altri sei zeri per le unità sull'asse . Puoi ingrandire o rimpicciolire se lo desideri, ma ciò non cambierebbe l'immagine. Nel frattempo, se la curva pdf è una linea orizzontale diritta (che implica una distribuzione uniforme), la sua posizione sull'asse non dipende dalle unità dell'asse ma solo dalla lunghezza dell'intervallo sull'asse . Non sono sicuro di quanto sia utile per te, ma per me l'idea di ingrandire e ridurre rende più facile la comprensione. x y x xxxyxx
Richard Hardy,

2
Questo sembra essere vero. Ma è un po 'come usare una lente d'ingrandimento (certamente strana) che ingrandisce in direzione orizzontale di 1000 e allo stesso tempo si restringe proporzionalmente nella direzione verticale. Ma l'essenza dell'immagine non cambierà solo cambiando la scala.
Richard Hardy,

2
Questa domanda mi sembra la stessa di quella posta (in modo diverso) e ha risposto a stats.stackexchange.com/questions/4220/… .
whuber

1
@amoeba, Sì, mentre molti potrebbero sentirsi obbligati a votare per la risposta più lunga in riconoscimento dello sforzo profuso (cosa che ho fatto anch'io, a proposito), Aksakal ha risposto alla mia domanda in modo molto più chiaro e conciso. Ad essere sincero direi che anche la risposta di Silverfish mi ha aiutato e sarebbe arrivata al secondo prossimo.
TheChymera,

2
@amoeba Una direzione di risposta completamente diversa avrebbe potuto essere quella di concentrarsi sul fatto che i PDF sono derivati ​​dei CDF, quindi l'area sotto il PDF è semplicemente il valore limite del CDF - che è chiaramente uno, indipendentemente dalle unità utilizzate. Sono stato tentato di includere una breve sezione su questo, ma sentivo che la mia risposta era già abbastanza lunga (e inoltre, la chiave del problema del PO sembrava essere il problema delle unità, che l'approccio CDF evita piuttosto).
Silverfish,

Risposte:


14

La funzione di densità di probabilità è misurata in percentuale per unità di misura dell'asse x. Diciamo che in un dato punto x0 tuo PDF è uguale a 1000. Ciò significa che la probabilità di è dove è in metri. Se cambi le unità in centimetri, la probabilità non dovrebbe cambiare per lo stesso intervallo, ma lo stesso intervallo ha 100 centimetri in più rispetto ai metri, quindi e risoluzione otteniamo . Ci sono 100 volte meno unità di probabilità (percentuali) per centimetro rispetto al metro.x0<x<x0+dx1000dxdx1000dx=PDF(x0)100dxPDF(x0)=PDF(x0)100


46

Potrebbe aiutarti a capire che l'asse verticale viene misurato come densità di probabilità . Pertanto, se l'asse orizzontale viene misurato in km, l'asse verticale viene misurato come densità di probabilità "per km". Supponiamo di disegnare un elemento rettangolare su tale griglia, larga 5 "km" e alta 0,1 "per km" (che potresti preferire scrivere come "km "). L'area di questo rettangolo è di 5 km x 0,1 km = 0,5. Le unità si annullano e ci rimane solo una probabilità della metà.- 111

Se hai cambiato le unità orizzontali in "metri", dovresti cambiare le unità verticali in "per metro". Il rettangolo ora sarebbe largo 5000 metri e avrebbe una densità (altezza) di 0,0001 al metro. Ti rimane ancora una probabilità della metà. Potresti essere turbato da quanto strani questi due grafici appariranno sulla pagina l'uno rispetto all'altro (non è necessario che uno sia molto più ampio e più corto dell'altro?), Ma quando disegni fisicamente le trame puoi usare qualunque cosa scala che ti piace. Guarda in basso per vedere quanto deve essere coinvolta la piccola stranezza.

Potrebbe essere utile considerare gli istogrammi prima di passare alle curve di densità di probabilità. In molti modi sono analoghi. L'asse verticale di un istogramma è la densità di frequenza [per unità ]x e le aree rappresentano le frequenze, sempre perché le unità orizzontali e verticali si annullano alla moltiplicazione. La curva PDF è una sorta di versione continua di un istogramma, con una frequenza totale pari a una.

Un'analogia ancora più stretta è un istogramma di frequenza relativa : diciamo che un simile istogramma è stato "normalizzato", quindi gli elementi di area ora rappresentano le proporzioni del set di dati originale anziché le frequenze grezze, e l'area totale di tutte le barre è una. Le altezze sono ora densità di frequenza relative [per unità ]x . Se un istogramma di frequenza relativa ha una barra che corre lungoxvalori da 20 km a 25 km (quindi la larghezza della barra è 5 km) e ha una densità di frequenza relativa di 0,1 per km, quindi quella barra contiene una proporzione 0,5 dei dati. Ciò corrisponde esattamente all'idea che un elemento scelto casualmente dal tuo set di dati abbia una probabilità del 50% di trovarsi in quella barra. La precedente argomentazione sull'effetto dei cambiamenti nelle unità si applica ancora: confrontare le proporzioni dei dati che si trovano nella barra da 20 km a 25 km a quella nei bar da 20.000 metri a 25.000 metri per questi due grafici. Puoi anche confermare aritmeticamente che le aree di tutte le barre si sommano a una in entrambi i casi.

Istogrammi di frequenza relativa con unità diverse

Cosa avrei potuto intendere con la mia affermazione che il PDF è una "specie di versione continua di un istogramma"? Prendiamo una piccola striscia sotto una curva di densità di probabilità, lungo i valori nell'intervallo , quindi la striscia è ampia e l'altezza della curva è una approssimativamente costante . Possiamo disegnare una barra di quell'altezza, la cui area rappresenta la probabilità approssimativa di trovarsi in quella striscia.[ x , x + δ x ] δ x f ( x ) f ( x )X[X,X+δX]δXf(X)f(X)δX

Come possiamo trovare l'area sotto la curva tra e ? Potremmo suddividere quell'intervallo in piccole strisce e prendere la somma delle aree delle barre, , che corrisponderebbe alla probabilità approssimativa di trovarsi nell'intervallo . Vediamo che la curva e le barre non si allineano esattamente, quindi c'è un errore nella nostra approssimazione. Rendendo il più piccolo per ogni barra, riempiamo l'intervallo con barre più e più strette, il cui fornisce una stima migliore dell'area.x = b f ( x )X=un'X=B[ a , b ] δ x f ( x )Σf(X)δX[un',B]δXΣf(X)δX

Per calcolare con precisione l'area, piuttosto che supporre che fosse costante attraverso ogni striscia, valutiamo l'integrale , e ciò corrisponde alla reale probabilità di trovarsi nell'intervallo . L'integrazione sull'intera curva fornisce un'area totale (cioè la probabilità totale) una, per lo stesso motivo per cui la somma delle aree di tutte le barre di un istogramma di frequenza relativa fornisce un'area totale (cioè la proporzione totale) di una. L'integrazione è essa stessa una sorta di versione continua del prendere una somma.b a f ( x ) d x [ a , b ]f(X)un'Bf(X)dX[un',B]

inserisci qui la descrizione dell'immagine

Codice R per grafici

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

l'hai inchiodato con le prime due righe, ma il resto è altrettanto buono.
Patrick,

2
@PatrickT Grazie - l'esperienza di insegnamento suggerisce che a volte devi provare un paio di cose prima che il penny scenda, perché diversi studenti (o lettori) arrivano con diversi livelli di conoscenza. Le prime due righe dovrebbero convincere qualsiasi lettore che conosca l'analisi dimensionale (ad esempio se le scienze fisiche studiate o l'ingegneria) ma spero che le trame risolvano il resto! Nella mia esperienza, l'approccio dell'istogramma funziona bene per gli studenti che li hanno già incontrati; il divario tra "densità di frequenza relativa" e "densità di probabilità" è più facile da colmare di . f(X)=F'(X)
Silverfish

1
@Silverfish: Questa è la prima volta che vedo qualcuno usare il termine "gocce di penny" in inglese!
Mehrdad,

1
Il primo diagramma sembra qualcuno che lancia l'uccello :)
Aksakal,

1
@Aksakal Ooof. Non me ne sono accorto. Devo ricordare di non usare quell'esempio in classe senza alcune modifiche. (Sulle stesse linee, quando si risolve un problema da risolvere alla lavagna, ci sono alcuni numeri come 69 che cerco di evitare di apparire. L'esperienza è vinta duramente.)
Silverfish

7

Hai già ottenuto due risposte, con una eccellente di Silverfish , tuttavia ritengo che un'illustrazione possa essere utile qui poiché hai chiesto informazioni sulla geometria e "immaginando" te stesso quelle funzioni.

Iniziamo con un semplice esempio di distribuzione di Bernoulli :

f(X)={pSe X=1,1-pSe X=0.

inserisci qui la descrizione dell'immagine

Poiché i valori sono discreti, non esiste una "curva" ma solo due punti, tuttavia l'idea è simile: se si desidera conoscere la probabilità totale (area sotto la curva) è necessario riassumere le probabilità di entrambi i possibili risultati:

p+(1-p)=1

p1-p

XXf(X)X1X11Σ#{Xio}=NΣ#{Xio}/N=1N

inserisci qui la descrizione dell'immagine

XX. Quindi se ci fossero dei punti non potresti vederli, non importa quanto "ingrandiresti", dato che ci potrebbe sempre essere un numero infinito di punti più piccoli tra un dato punto. Per questo qui in realtà abbiamo una curva - puoi immaginare che sia composta da infiniti "punti". Potresti chiederti: come calcolare una somma di un numero infinito di probabilità ..? Sul grafico sotto la curva rossa c'è un normale PDF e le caselle nere sono un istogramma di alcuni valori estratti dalla distribuzione. Quindi la trama dell'istogramma ha semplificato la nostra distribuzione al numero finito di "scatole" con una certa larghezzae se sommassi le altezze delle scatole moltiplicate per la loro larghezza, finiresti con un'area sotto la curva - o area di tutte le scatole. Utilizziamo le aree piuttosto i punti qui poiché ogni riquadro è un riepilogo di un numero infinito di "punti" che sono stati raggruppati nel riquadro.

inserisci qui la descrizione dell'immagine

f(X)-2.5--3=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0.511

11f(X).

un'B-33

un'Bf(X)dX

f(X)dXΣ

Hai anche chiesto informazioni sulla distribuzione "piatta" (uniforme) :

inserisci qui la descrizione dell'immagine

-<un'<B<1-1ε piccola ... Quindi questo è un caso complicato e potresti immaginarlo piuttosto in termini astratti. Si noti che, comeIlmari Karonen ha notato nel commento, questa è piuttosto un'idea astratta che non è davvero possibile in pratica (vedi il commento sotto). Se si utilizza tale distribuzione come un precedente, sarebbe un precedente improprio .

1


1
1XY(-,)|X|<|Y|

Hai ragione, "complicato" è troppo informale. Farò correzioni in seguito.
Tim

0

La seguente idea chiave è stata menzionata in un commento, ma non in una risposta esistente ...

Un modo di intuire le proprietà di un PDF è considerare che il PDF e il CDF sono correlati per integrazione (calcolo) e che il CDF ha un output monotonico che rappresenta un valore di probabilità compreso tra 0 e 1.

L'adimensionale superficie totale integrata sotto la curva PDF non è influenzato da unità dell'asse X.

Per dirla semplicemente...

Area = Width x Height

Se l'asse X diventa più grande, numericamente, a causa di una modifica delle unità, allora l'asse Y deve ridursi di un fattore lineare corrispondente .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.