Costruire un modello lineare per un rapporto vs. percentuale?


20

Supponiamo che io voglia costruire un modello per prevedere un qualche tipo di rapporto o percentuale. Ad esempio, supponiamo che io voglia prevedere il numero di ragazzi contro ragazze che parteciperanno a una festa, e le caratteristiche della festa che posso usare nel modello sono cose come la quantità di pubblicità per la festa, la dimensione della sede, se ci sarà qualsiasi alcol alla festa, ecc. (Questo è solo un esempio inventato; le caratteristiche non sono davvero importanti.)

La mia domanda è: qual è la differenza tra la previsione di un rapporto rispetto a una percentuale e come cambia il mio modello a seconda di quale scelgo? Uno è migliore dell'altro? Qualche altra funzione è migliore di entrambe? (Non mi interessa davvero il numero specifico di rapporto rispetto alla percentuale; voglio solo essere in grado di identificare quali parti hanno più probabilità di essere "feste maschili" rispetto a "feste femminili".) Ad esempio, sono pensiero:

  • Se voglio prevedere una percentuale (diciamo, # boys / (# boys + # girls)quindi poiché la mia funzione dipendente è limitata tra 0 e 1, probabilmente dovrei usare qualcosa come una regressione logistica invece di una regressione lineare.
  • Se voglio prevedere un rapporto (diciamo, # boys / # girlso # boys / (1 + # girls)per evitare errori di divisione per zero), allora la mia funzione dipendente è positiva, quindi dovrei forse applicare una sorta di trasformazione (log?) Prima di usare una regressione lineare? (O qualche altro modello? Che tipo di modelli di regressione vengono utilizzati per dati positivi e non conteggiati?)
  • In genere è meglio prevedere (diciamo) la percentuale anziché il rapporto e, in tal caso, perché?

A seconda della tua particolare applicazione e di ciò che stai cercando di modellare, dovresti prendere in considerazione l'utilizzo dell'analisi dei dati composizionali ( en.wikipedia.org/wiki/Compositional_data ); ci sono alcune cose sottili da considerare quando le caratteristiche (variabili indipendenti) si sommano all'unità. Si prega di vedere il lavoro di John Aitchison.
ctbrown

Risposte:


9

pUNBp

[0,1]

01

log


15

Facendo eco alla prima risposta. Non preoccuparti di convertirti: modella semplicemente i conteggi e le covariate direttamente.

Se lo fai e adatti un modello di regressione binomiale (o equivalentemente logistico) ai conteggi delle ragazze, allora, se scegli la solita funzione di collegamento per tali modelli, implicitamente stai già adattando un rapporto (livellato covariato) di ragazzi e ragazze. Questo è il predittore lineare.

Il motivo principale per modellare i conteggi direttamente anziché le proporzioni o i rapporti è che non si perdono informazioni. Intuitivamente saresti molto più sicuro delle inferenze rispetto a un rapporto osservato di 1 (ragazzi e ragazze) se provenisse dal vedere 100 ragazzi e 100 ragazze che dal vedere 2 e 2. Di conseguenza, se hai le covariate avrai più informazioni sui loro effetti e potenzialmente un modello predittivo migliore.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.