perché aiuta con i numeri delimitati sopra e sotto?
Una distribuzione definita su è ciò che la rende adatta come modello per i dati su . Non credo che il testo implichi qualcosa di più di "è un modello per i dati su " (o più in generale, su ).( 0 , 1 ) ( 0 , 1 ) ( a , b )(0,1)( 0 , 1 )( 0 , 1 )( a , b )
che cos'è questa distribuzione ...?
Il termine "distribuzione delle probabilità di log" non è, purtroppo, completamente standard (e nemmeno un termine molto comune).
Discuterò alcune possibilità per ciò che potrebbe significare. Cominciamo considerando un modo per costruire distribuzioni per valori nell'intervallo unitario.
Un modo comune per modellare una variabile casuale continua, in è la distribuzione beta , e un modo comune per modellare proporzioni discrete in è un binomio in scala ( , almeno quando è un conteggio).( 0 , 1 ) [ 0 , 1 ] P = X / n XP( 0 , 1 )[ 0 , 1 ]P= X/ nX
Un'alternativa all'utilizzo di una distribuzione beta sarebbe quella di prendere un CDF inverso continuo ( ) e usarlo per trasformare i valori in nella linea reale (o raramente nella mezza linea reale) e quindi utilizzare qualsiasi distribuzione rilevante ( ) per modellare i valori sull'intervallo trasformato. Questo apre molte possibilità, poiché qualsiasi coppia di distribuzioni continue sulla linea reale ( ) sono disponibili per la trasformazione e il modello. ( 0 , 1 ) G F , GF- 1( 0 , 1 )solF, G
Quindi, ad esempio, la trasformazione delle probabilità del log (chiamata anche logit ) sarebbe una tale trasformazione inverse-cdf (essendo il CDF inverso di una logistica standard ) , e poi ci sono molte distribuzioni potremmo considerare come modelli per .YY= log( P1 - P)Y
Potremmo quindi usare (per esempio) un modello logistico per , una semplice famiglia di due parametri sulla linea reale. La trasformazione di nuovo in tramite la trasformazione inversa delle quote del registro (cioè ) produce una distribuzione di due parametri per , una che può essere unimodale, o a forma di U, o a forma di J, simmetrico o obliquo, in molti modi un po 'come una distribuzione beta (personalmente, chiamerei questo logit-logistico, poiché il suo logit è logistico). Ecco alcuni esempi di diversi valori di :Y ( 0 , 1 ) P = exp ( Y )( μ , τ)Y( 0 , 1 ) Pμ,τP= exp( Y)1 + exp( Y)Pμ , τ
Guardando la breve menzione nel testo di Witten et al, questo potrebbe essere ciò che si intende per "distribuzione delle probabilità di registro" - ma potrebbero facilmente significare qualcos'altro.
Un'altra possibilità è che fosse previsto il logit-normal .
Tuttavia, il termine sembra essere stato usato da van Erp e van Gelder (2008) , ad esempio, per riferirsi a una trasformazione delle probabilità di registro su una distribuzione beta (quindi in effetti prendendo come logistico e come distribuzione del log di una variabile casuale beta-prime , o equivalentemente la distribuzione della differenza dei log di due variabili aleatorie chi-quadrate). Tuttavia, lo stanno usando per fare proporzioni di conteggio dei modelli , che sono discrete. Questo ovviamente porta ad alcuni problemi (causati dal tentativo di modellare una distribuzione con probabilità finita a 0 e 1 con uno su FG(0,1)[ 1 ]Fsol( 0 , 1 )), su cui sembrano quindi impegnarsi molto. (Sembrerebbe più facile evitare il modello inappropriato, ma forse sono solo io.)
Numerosi altri documenti (ne ho trovati almeno tre) si riferiscono alla distribuzione campione delle probabilità di registro (cioè sulla scala di sopra) come "distribuzione delle probabilità di registro" (in alcuni casi in cui è una proporzione discreta * e in alcuni casi in cui è una proporzione continua) - quindi in quel caso non è un modello di probabilità in quanto tale, ma è qualcosa a cui potresti applicare un modello distributivo sulla linea reale.PYP
* ancora una volta, questo ha il problema che se è esattamente 0 o 1, il valore di sarà rispettivamente o ... il che suggerisce che dobbiamo limitare la distribuzione a partire da 0 e 1 per usarlo a questo scopo .Y - ∞ ∞PY−∞∞
La tesi di Yan Guo (2009) usa il termine per riferirsi a una distribuzione log-logistica , una distribuzione sbilanciata sulla semiretta reale.[2]
Quindi, come vedi, non è un termine con un unico significato. Senza un'indicazione più chiara da parte di Witten o di uno degli altri autori di quel libro, siamo lasciati a indovinare cosa si intende.
[1]: Noel van Erp e Pieter van Gelder, (2008),
"Come interpretare la distribuzione beta in caso di guasto",
Atti del 6 ° seminario probabilistico internazionale , Darmstadt
pdf link
[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Robustness,
tesi presentata alla Graduate School della Wayne State University, Detroit, Michigan