Per il compito di sfornare la modellazione stavo considerando:
- Calcola k cluster per i dati
- Costruisci k modelli per ogni cluster individualmente.
La logica di ciò è che non c'è nulla da dimostrare che la popolazione di abbonati sia omogenea, quindi è ragionevole supporre che il processo di generazione dei dati possa essere diverso per "gruppi" diversi
La mia domanda è: è un metodo appropriato? Violare qualcosa o è considerato cattivo per qualche motivo? Se è così, perché?
In caso contrario, condivideresti alcune migliori pratiche su tale questione? E la seconda cosa - è generalmente meglio o peggio fare la preclusterizzazione rispetto all'albero modello (Come definito in Witten, Frank - albero di classificazione / regressione con modelli alle foglie. Intuitivamente sembra che la fase dell'albero decisionale sia solo un'altra forma di raggruppamento, ma idk se presenta dei vantaggi rispetto al clustering "normale".).