Usare i percentili come predittori - buona idea?


9

Sto pensando a un problema che consiste nel prevedere il log (spesa) di un cliente usando la regressione lineare.

Sto prendendo in considerazione le funzionalità da utilizzare come input e mi chiedo se sarebbe corretto utilizzare il percentile di una variabile come input.

Ad esempio, potrei utilizzare le entrate dell'azienda come input. Quello che mi chiedo è se potrei usare invece il percentile delle entrate dell'azienda.

Un altro esempio potrebbe essere un classificatore industriale di categoria (NAICS): se dovessi esaminare la spesa mediana per codice NAICS e quindi assegnare ciascun codice NAICS a un "Percentile NAICS", sarebbe una variabile esplicativa valida che potrei usare?

Ti stai solo chiedendo se ci sono problemi da tenere presente quando si usano i percentili? È in qualche modo equivalente a un tipo di ridimensionamento delle funzionalità?


2
Se hai i dati originali, perché vorresti usare i percentili? Forse non è una buona idea, perché i percentili sono solo misure ordinali, non metriche. Ma non sono sicuro di parzialità / efficienza.
hplieninger,

9
La percentuale di s non è coerente con il modo in cui le s hanno il loro effetto. Un errore comune è il peso percentuale o l'IMC quando si prevede un risultato sanitario. La fisica del peso impone che sono le dimensioni fisiche di una persona che si riferiscono alle loro funzioni corporee, non quante persone nel campione sono al di sotto del peso o dell'IMC di un soggetto. XX
Frank Harrell,

1
se puoi ragionevolmente raggruppare la tua variabile di settore in gruppi, ad esempio 4, usa la codifica fittizia (o qualsiasi altro schema di codifica appropriato) e il gioco è fatto. Questo è il modo in cui lo farei.
hplieninger,

3
Non riesco a pensare a una ragione per cui il percentile sarebbe linearmente correlato alla variabile dipendente. Se riesci a pensarne uno, allora potrebbe essere OK (e per favore aggiorna la tua domanda con il tuo motivo)
Peter Flom

1
Se si desidera utilizzare il codice NAICS come proxy per la spesa di un'azienda, è possibile farlo utilizzando la spesa media nel suo codice NAICS - non è necessario utilizzare percentili.
Scortchi - Ripristina Monica

Risposte:


1

Se il tuo modello comporta una sorta di contest in entrate costanti, puoi usare percentile. Il percentile di tronchi sembra più significativo, i quantili non avranno un valore lineare, o almeno così immagino.

In questa storia, includi ln (%) di aziende con entrate nell'ambito della società di osservazione. La storia è che con alti ricavi hanno una reputazione migliore delle aziende con bassi ricavi, e questa relazione di "avere più della concorrenza" è rilevante, non il livello delle entrate stesse. Potrei vederlo come una parte importante del riconoscimento e del marchio deciso.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.