Che cos'è una distribuzione delle probabilità del registro?

11

Sto leggendo un libro di testo sull'apprendimento automatico (Data Mining di Witten, et al., 2011) e mi sono imbattuto in questo passaggio:

... Inoltre, è possibile utilizzare diverse distribuzioni. Sebbene la distribuzione normale sia di solito una buona scelta per gli attributi numerici, non è adatta per attributi che hanno un minimo predeterminato ma nessun limite superiore; in questo caso una distribuzione "log-normal" è più appropriata. Gli attributi numerici che sono delimitati sopra e sotto possono essere modellati da una distribuzione "odds-log" .

Non ho mai sentito parlare di questa distribuzione. Ho cercato su Google la "distribuzione delle quote del registro" ma non sono riuscito a trovare alcuna corrispondenza esatta pertinente. Qualcuno mi può aiutare? Cos'è questa distribuzione e perché aiuta con i numeri limitati sopra e sotto?

PS Sono un ingegnere del software, non uno statistico.

machine-learning distributions

— stackoverflowuser2010
fonte

14

perché aiuta con i numeri delimitati sopra e sotto?

Una distribuzione definita su è ciò che la rende adatta come modello per i dati su . Non credo che il testo implichi qualcosa di più di "è un modello per i dati su " (o più in generale, su ). $(0,1)$ $(0,1)$ $(0,1)$ $(a,b)$

che cos'è questa distribuzione ...?

Il termine "distribuzione delle probabilità di log" non è, purtroppo, completamente standard (e nemmeno un termine molto comune).

Discuterò alcune possibilità per ciò che potrebbe significare. Cominciamo considerando un modo per costruire distribuzioni per valori nell'intervallo unitario.

Un modo comune per modellare una variabile casuale continua, in è la distribuzione beta , e un modo comune per modellare proporzioni discrete in è un binomio in scala ( , almeno quando è un conteggio). $P$ $(0,1)$ $[0,1]$ $P=X/n$ $X$

Un'alternativa all'utilizzo di una distribuzione beta sarebbe quella di prendere un CDF inverso continuo ( ) e usarlo per trasformare i valori in nella linea reale (o raramente nella mezza linea reale) e quindi utilizzare qualsiasi distribuzione rilevante ( ) per modellare i valori sull'intervallo trasformato. Questo apre molte possibilità, poiché qualsiasi coppia di distribuzioni continue sulla linea reale ( ) sono disponibili per la trasformazione e il modello. $F^{-1}$ $(0,1)$ $G$ $F,G$

Quindi, ad esempio, la trasformazione delle probabilità del log (chiamata anche logit ) sarebbe una tale trasformazione inverse-cdf (essendo il CDF inverso di una logistica standard ) , e poi ci sono molte distribuzioni potremmo considerare come modelli per . $Y=\log(\frac{P}{1-P})$ $Y$

Potremmo quindi usare (per esempio) un modello logistico per , una semplice famiglia di due parametri sulla linea reale. La trasformazione di nuovo in tramite la trasformazione inversa delle quote del registro (cioè ) produce una distribuzione di due parametri per , una che può essere unimodale, o a forma di U, o a forma di J, simmetrico o obliquo, in molti modi un po 'come una distribuzione beta (personalmente, chiamerei questo logit-logistico, poiché il suo logit è logistico). Ecco alcuni esempi di diversi valori di : $(\mu,\tau)$ $Y$ $(0,1)$ $P=\frac{\exp(Y)}{1+\exp(Y)}$ $P$ $\mu,\tau$

$\hspace{1.5cm}$ inserisci qui la descrizione dell'immagine

Guardando la breve menzione nel testo di Witten et al, questo potrebbe essere ciò che si intende per "distribuzione delle probabilità di registro" - ma potrebbero facilmente significare qualcos'altro.

Un'altra possibilità è che fosse previsto il logit-normal .

Tuttavia, il termine sembra essere stato usato da van Erp e van Gelder (2008) , ad esempio, per riferirsi a una trasformazione delle probabilità di registro su una distribuzione beta (quindi in effetti prendendo come logistico e come distribuzione del log di una variabile casuale beta-prime , o equivalentemente la distribuzione della differenza dei log di due variabili aleatorie chi-quadrate). Tuttavia, lo stanno usando per fare proporzioni di conteggio dei modelli , che sono discrete. Questo ovviamente porta ad alcuni problemi (causati dal tentativo di modellare una distribuzione con probabilità finita a 0 e 1 con uno su $^{[1]}$ $F$ $G$ $(0,1)$ ), su cui sembrano quindi impegnarsi molto. (Sembrerebbe più facile evitare il modello inappropriato, ma forse sono solo io.)

Numerosi altri documenti (ne ho trovati almeno tre) si riferiscono alla distribuzione campione delle probabilità di registro (cioè sulla scala di sopra) come "distribuzione delle probabilità di registro" (in alcuni casi in cui è una proporzione discreta * e in alcuni casi in cui è una proporzione continua) - quindi in quel caso non è un modello di probabilità in quanto tale, ma è qualcosa a cui potresti applicare un modello distributivo sulla linea reale. $Y$ $P$

* ancora una volta, questo ha il problema che se è esattamente 0 o 1, il valore di sarà rispettivamente o ... il che suggerisce che dobbiamo limitare la distribuzione a partire da 0 e 1 per usarlo a questo scopo . $P$ $Y$ $-\infty$ $\infty$

La tesi di Yan Guo (2009) usa il termine per riferirsi a una distribuzione log-logistica , una distribuzione sbilanciata sulla semiretta reale. $^{[2]}$

Quindi, come vedi, non è un termine con un unico significato. Senza un'indicazione più chiara da parte di Witten o di uno degli altri autori di quel libro, siamo lasciati a indovinare cosa si intende.

[1]: Noel van Erp e Pieter van Gelder, (2008),
"Come interpretare la distribuzione beta in caso di guasto",
Atti del 6 ° seminario probabilistico internazionale , Darmstadt
pdf link

[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Robustness,
tesi presentata alla Graduate School della Wayne State University, Detroit, Michigan

— Glen_b -Restate Monica
fonte

1

(+1) Una ricerca dell'intero libro indica che non sono previsti chiarimenti. Il contesto suggerisce che "distribuzione delle probabilità del log" si riferisce a un modello particolare, così come il "lognormale" è stato proposto nella frase precedente come una distribuzione universale per tutti i valori non negativi (!).

— whuber

1

@whuber Concordo con la tua caratterizzazione di ciò che è nel libro - Non intendevo che i miei commenti relativi all'uso del termine in altri contesti per fare riferimento alla distribuzione del campione implicassero che quello era lo scopo del libro, ma solo come un'indicazione che è un termine con diversi significati. Sui passaggi in questione, il mio consiglio alle persone che imparano questo materiale (come su molte cose) sarebbe di leggere più di un libro.

— Glen_b -Restate Monica

2

Sono un ingegnere del software (non uno statistico) e di recente ho letto un libro intitolato An Introduction to Statistical Learning. Con applicazioni in R.

Penso che quello che stai leggendo sia odds-log o logit. pagina 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

Libro brillante: l'ho letto da cima a fondo. Spero che sia di aiuto

— JasonEdinburgh
fonte

Grazie per il puntatore. Supponendo che la distribuzione delle probabilità del log sia la stessa della "distribuzione logistica", ho cercato quest'ultimo su Wikipedia. Sembra che il suo PDF non abbia limiti inferiori o superiori. Quindi mi chiedo ancora perché il libro di testo che ho citato originariamente dicesse che "Gli attributi numerici che sono delimitati sopra e sotto sono modellabili" con questa distribuzione.

— stackoverflowuser2010,

Penso che forse stia parlando dell'output della funzione in cui i limiti sono da 0,0 (impossibile) a 1,0 (definito). (Potrei sbagliarmi completamente qui)

— JasonEdinburgh il

È possibile che il tuo modello possa produrre risultati positivi o negativi arbitrariamente grandi. Questi potrebbero non essere interpretabili in termini di un intervallo limitato come una probabilità, ma potrebbero essere interpretabili come quote-log utilizzando la funzione logit e la sua funzione logistica inversa.

— Henry,