Best practice per il trattamento continuo dei dati di intervallo

Sto esaminando se l'abbondanza è legata alla dimensione. Le dimensioni sono (ovviamente) continue, tuttavia l'abbondanza è registrata su una scala tale che

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc...

Livelli da A a Q ... 17. Pensavo che un possibile approccio sarebbe stato quello di assegnare un numero a ciascuna lettera: il minimo, il massimo o la mediana (cioè A = 5, B = 18, C = 38, D = 75.5 ...).

Quali sono le potenziali insidie - e come tali, sarebbe meglio trattare questi dati come categorici?

Ho letto questa domanda che fornisce alcuni pensieri - ma una delle chiavi di questo set di dati è che le categorie non sono pari - quindi trattarlo come categorico presuppone che la differenza tra A e B sia uguale alla differenza tra B e C ... (che possono essere corretti usando il logaritmo - grazie Anonymouse)

In definitiva, vorrei vedere se le dimensioni possono essere utilizzate come predittore per l'abbondanza dopo aver preso in considerazione altri fattori ambientali. La previsione sarà anche in un intervallo: date le dimensioni X e i fattori A, B e C, prevediamo che l'Abbondanza Y cadrà tra Min e Max (che suppongo possa abbracciare uno o più punti di scala: più di Min D e meno di Max F ... anche se più preciso è meglio).

— Trees4theForest
fonte

Risposte:

Soluzione categorica

$A\lt B\lt \cdots \lt J\lt \ldots$

A titolo di esempio, considerare 30 coppie (dimensioni, categoria di abbondanza) generate come

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

con abbondanza classificata in intervalli [0,10], [11,25], ..., [10001,25000].

Grafico a dispersione della categoria di abbondanza rispetto alle dimensioni

La regressione logistica ordinata produce una distribuzione di probabilità per ogni categoria; la distribuzione dipende dalla dimensione. Da tali informazioni dettagliate è possibile produrre valori stimati e intervalli intorno a loro. Ecco un grafico dei 10 PDF stimati da questi dati (una stima per la categoria 10 non era possibile a causa della mancanza di dati lì):

Densità di probabilità per categoria

Soluzione continua

Perché non selezionare un valore numerico per rappresentare ciascuna categoria e visualizzare l'incertezza sulla vera abbondanza all'interno della categoria come parte del termine di errore?

$f$ $a$ $f(a)$ $a$

$f$ $\alpha_i$ $i$ $\beta_i$ $i$ $f(\beta_i)$ $\alpha_i$ $\alpha_{i+1}$ $f(a)$

$\varepsilon$ $a+\varepsilon$ $a$ $f(\beta_i)$ $f(\beta_i) - f(a)$

error = f (a + ε) - f (a) - (f (a + ε) - f (β_{i})) .

$\text{error} = f(a + \varepsilon) - f(a) - \left(f(a + \varepsilon) - f(\beta_i)\right).$

$f(a + \varepsilon) - f(a)$ $f$ $\varepsilon$ $\varepsilon$ $\varepsilon$ $i - f(\beta_i) \lt 0$ $i+1 - f(\beta_i) \ge 0$ $f$ $\beta_i$ $f(\beta_i)$ $i$ $i+1$ $\beta_i \approx f^{-1}(i+1/2)$

$f$

$4 \log(10) \approx 9.21$

Risultati della regressione

Questo diagramma mostra le abbondanze non categorizzate insieme a un adattamento basato sulle abbondanze categorizzate (usando mezzi geometrici degli endpoint di categoria come raccomandato) e un adattamento basato sulle abbondanze stesse. Gli accoppiamenti sono notevolmente vicini, indicando che questo metodo di sostituzione delle categorie con valori numerici opportunamente scelti funziona bene nell'esempio .

$\beta_i$ $f$ $1$ $0$ $25000$

— whuber
fonte

+1 risposta eccellente! Mi piace soprattutto come vengono descritte 2 diverse opzioni insieme alle loro giustificazioni. Raccolgo anche prendendo il registro dell'abbondanza, non delle dimensioni, dovrebbe essere l'enfasi, che era anche il mio pensiero. Una domanda, nella parte 1, si afferma "è possibile produrre valori stimati e intervalli intorno a loro". Come si fa a fare questo?

— gung - Ripristina Monica

Bella domanda, @gung. Un modo rozzo, che può essere efficace, è quello di trattare le categorie come dati con valori di intervallo e i risultati logit ordinati stanno fornendo una distribuzione (discreta) su quegli intervalli per un dato valore della "dimensione". Il risultato è una distribuzione a intervallo di valori, che avrà una media a intervallo e limiti di confidenza a intervallo.

— whuber

@whuber, varrebbe la pena menzionare le opzioni del software. Immagino che tu abbia usato Stata (se mi sono allenato abbastanza bene con i grafici Stata e glielo dico dai grafici R e SAS), dove è dotato questo modello ologit. In R, puoi farlo con polrnel MASSpacchetto.

— StasK

Hai ragione, @Stask. Grazie per il riferimento alla soluzione R. (I grafici sono tutti grafici predefiniti in Stata 11; solo la legenda e gli stili di linea nell'ultimo sono stati personalizzati perché la distinzione rosso-verde potrebbe altrimenti non essere evidente a circa il 3% di tutti i lettori.)

— whuber

@StasK rms::lrme il numero ordinale ( clmpacchetto) sono anche buone opzioni.

— chl

Prendi in considerazione l'utilizzo del logaritmo della dimensione.

— Ha QUIT - Anony-Mousse
fonte

Ha - Quella risposta ha suscitato un palmo parziale. È vero che si occupa del problema della scala, ma è ancora a portata di mano: categorizzare o meno, e su quale numero inserire il "valore". Se queste domande sono irrilevanti, posso gestirle anche io.

— Trees4theFestest

Bene, hai messo vari problemi in uno. I dati che hai sembrano avere più senso su una scala logaritmica. Che tu voglia fare il binning o meno è una domanda separata, e lì ho solo un'altra risposta palese per te: dipende dai tuoi dati e da ciò che vuoi ottenere. Poi c'è un'altra domanda nascosta: come faccio a calcolare la differenza tra gli intervalli - calcolare la differenza dei loro mezzi? o la distanza minima (quindi da A a B sarebbe 0, da B a C sarebbe 0, ma da A a C no). ecc.

— Ha QUIT - Anony-Mousse l'

Aspetti positivi, ho aggiornato la mia domanda con ulteriori informazioni per raggiungere gli obiettivi. Per quanto riguarda la differenza di intervalli, penso che sia la mia domanda: quali sarebbero i relativi vantaggi / svantaggi del calcolo dell'intervallo in base alla differenza di mezzi, distanza minima, distanza massima, distanza tra i minuti, distanza tra i massimi, ecc. Qualche consiglio su quali tipi di cose devo prendere in considerazione per prendere questa decisione (o se deve essere presa in considerazione) sarebbe eccezionale.

— Trees4theFestest

Ci sono molte altre opzioni. Ad esempio, per eliminare tutti gli effetti di scala, è possibile provare a prevedere la posizione della classifica. Oltre a ciò, si tratta di misurare gli errori. Prendendo il logaritmo, di solito si pondera anche gli errori in questo modo. Quindi, quando il valore vero è 10000 e il valore previsto è 10100, questo è molto inferiore rispetto a quando il valore previsto è 1 e il valore vero è 101. Inoltre, facendo il binning e calcolando il mindist tra i bin, peseremmo anche piccolo errori con 0.

— Ha QUIT - Anony-Mousse l'