Sto pensando a un problema che consiste nel prevedere il log (spesa) di un cliente usando la regressione lineare.
Sto prendendo in considerazione le funzionalità da utilizzare come input e mi chiedo se sarebbe corretto utilizzare il percentile di una variabile come input.
Ad esempio, potrei utilizzare le entrate dell'azienda come input. Quello che mi chiedo è se potrei usare invece il percentile delle entrate dell'azienda.
Un altro esempio potrebbe essere un classificatore industriale di categoria (NAICS): se dovessi esaminare la spesa mediana per codice NAICS e quindi assegnare ciascun codice NAICS a un "Percentile NAICS", sarebbe una variabile esplicativa valida che potrei usare?
Ti stai solo chiedendo se ci sono problemi da tenere presente quando si usano i percentili? È in qualche modo equivalente a un tipo di ridimensionamento delle funzionalità?