Distribuzione per dati percentuali


11

Ho una domanda sulla corretta distribuzione da utilizzare per la creazione di un modello con i miei dati. Ho condotto un inventario forestale con 50 trame, ogni trama misura 20m × 50m. Per ogni trama, ho stimato la percentuale di chioma d'albero che ombreggia il terreno. Ogni trama ha un valore, in percentuale, per la copertura del baldacchino. Le percentuali vanno da 0 a 0,95. Sto realizzando un modello di copertura del baldacchino ad albero percentuale ( variabile Y ), con una matrice di variabili X indipendenti basata su immagini satellitari e dati ambientali.

Non sono sicuro che dovrei usare una distribuzione binomiale, poiché una variabile casuale binomiale è la somma di n prove indipendenti (cioè, variabili casuali di Bernoulli). I valori percentuali non sono la somma delle prove; sono le percentuali effettive. Dovrei usare la gamma, anche se non ha un limite superiore? Devo convertire le percentuali in numeri interi e usare Poisson come conteggi? Dovrei semplicemente restare con Gaussian? Non ho trovato molti esempi in letteratura o nei libri di testo che provano a modellare le percentuali in questo modo. Eventuali suggerimenti o approfondimenti sono apprezzati.


Grazie per le tue risposte. Infatti, la distribuzione beta è esattamente ciò di cui ho bisogno ed è discussa a fondo in questo articolo:

L'articolo che segue illustra un buon modo per trasformare una variabile di risposta distribuita in beta quando include 0 e / o 1 reali nell'intervallo di percentuali:



2
Grazie per le tue risposte. In effetti, la distribuzione beta è esattamente ciò di cui ho bisogno ed è discussa a fondo in questo articolo: Eskelson, BN, Madsen, L., Hagar, JC e Temesgen, H. (2011). Stima della copertura vegetativa minimale di Riparian con regressione beta e modelli di copula. Forest Science, 57 (3), 212-221. Questi autori usano il pacchetto betareg in R di Cribari-Neto e Zeileis. Il seguente articolo discute un buon modo per trasformare una variabile di risposta distribuita in beta quando include 0 e / o 1 reali nell'intervallo di percentuali: Smithson, M. e J. Verkuilen, 2006. Un limone migliore sq

Risposte:


7

Hai ragione sul fatto che la distribuzione binomiale è per proporzioni discrete che derivano dal numero di "successi" derivanti da un numero finito di prove di Bernoulli e che ciò rende la distribuzione inappropriata per i tuoi dati. Dovresti usare la distribuzione Gamma divisa per la somma di quel Gamma più un altro Gamma. Cioè, dovresti usare la distribuzione beta per modellare proporzioni continue.

Ho un esempio di regressione beta nella mia risposta qui: effetto Rimuovi del fattore su dati proporzione continui utilizzando la regressione in R .

Aggiornamento:
@ DimitriyV.Masterov solleva il punto positivo che dici che i tuoi dati hanno , ma la distribuzione beta è supportata solo su . Questo pone la domanda su cosa dovrebbe essere fatto con tali valori. Alcune idee possono essere ricavate da questo eccellente thread CV: quanto piccola dovrebbe essere aggiunta a x per evitare di prendere il registro di 0?0(0, 1)


3
La distribuzione beta può gestire gli zeri?
Dimitriy V. Masterov,

1

I valori percentuali rappresentano le tariffe indipendentemente dal numero di campioni. Desideri utilizzare queste percentuali come variabile dipendente e le immagini satellitari come variabile esplicativa. Tuttavia, suppongo che non tutti i 50 grafici dell'inventario presentassero un numero simile di campioni. Un modello adatto che mette in relazione queste percentuali con altre variabili dovrebbe tenere conto di questa incertezza nella misurazione, dando più pesi su grafici con campioni elevati.

Inoltre, la distribuzione degli errori nel caso dei tuoi dati è chiaramente binomiale. La varianza dell'errore è minima ai limiti, questa viene catturata da una distribuzione binomiale.

Tutto questo mi sembra l'esempio archetipico dell'uso di un GLM con un modello di errore binomiale.

"Statistiche: un'introduzione usando R", il capitolo 14 di Crawley discute esattamente questo argomento e come analizzarlo con R.


4
La distribuzione binomiale è la distribuzione del numero di successi da un numero noto di prove di Bernoulli. Il tuo commento secondo cui "il fatto che i processi di Bernoulli siano anche descritti da una distribuzione binomiale non significa che tutto ciò che è descritto da una distribuzione binomiale deve essere conforme alla struttura di Bernoulli" non è corretto. La distribuzione binomiale non è appropriata per proporzioni continue. Inoltre, non ho suggerito la distribuzione Gamma, ma la distribuzione beta.
gung - Ripristina Monica

1
si, hai perfettamente ragione.
bonobo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.