Ho una domanda pratica sull'ingegneria delle caratteristiche ... diciamo che voglio prevedere i prezzi delle case usando la regressione logistica e ho usato un sacco di funzioni tra cui il codice postale. Quindi, controllando l'importanza della funzione, mi rendo conto che zip è una funzionalità piuttosto buona, quindi ho deciso di aggiungere alcune funzionalità in più basate su zip - ad esempio, vado all'ufficio censimento e ottengo il reddito medio, la popolazione, il numero di scuole e il numero di ospedali di ogni zip. Con queste quattro nuove funzionalità, ora trovo meglio le prestazioni del modello. Quindi aggiungo ancora più funzionalità relative a zip ... E questo ciclo continua all'infinito. Alla fine il modello sarà dominato da queste funzionalità relative allo zip, giusto?
Le mie domande:
- Ha senso farlo in primo luogo?
- Se sì, come faccio a sapere quando è il momento giusto per interrompere questo ciclo?
- In caso contrario, perché no?