Supponiamo che io voglia costruire un modello per prevedere un qualche tipo di rapporto o percentuale. Ad esempio, supponiamo che io voglia prevedere il numero di ragazzi contro ragazze che parteciperanno a una festa, e le caratteristiche della festa che posso usare nel modello sono cose come la quantità di pubblicità per la festa, la dimensione della sede, se ci sarà qualsiasi alcol alla festa, ecc. (Questo è solo un esempio inventato; le caratteristiche non sono davvero importanti.)
La mia domanda è: qual è la differenza tra la previsione di un rapporto rispetto a una percentuale e come cambia il mio modello a seconda di quale scelgo? Uno è migliore dell'altro? Qualche altra funzione è migliore di entrambe? (Non mi interessa davvero il numero specifico di rapporto rispetto alla percentuale; voglio solo essere in grado di identificare quali parti hanno più probabilità di essere "feste maschili" rispetto a "feste femminili".) Ad esempio, sono pensiero:
- Se voglio prevedere una percentuale (diciamo,
# boys / (# boys + # girls)quindi poiché la mia funzione dipendente è limitata tra 0 e 1, probabilmente dovrei usare qualcosa come una regressione logistica invece di una regressione lineare. - Se voglio prevedere un rapporto (diciamo,
# boys / # girlso# boys / (1 + # girls)per evitare errori di divisione per zero), allora la mia funzione dipendente è positiva, quindi dovrei forse applicare una sorta di trasformazione (log?) Prima di usare una regressione lineare? (O qualche altro modello? Che tipo di modelli di regressione vengono utilizzati per dati positivi e non conteggiati?) - In genere è meglio prevedere (diciamo) la percentuale anziché il rapporto e, in tal caso, perché?