Questo è un argomento ampio e incontrerai una serie di motivi per cui i dati dovrebbero essere, o già lo sono, ben definiti. Non tutti sono correlati alla precisione predittiva.
Innanzitutto, ecco un esempio in cui un modellatore potrebbe voler seccare. Supponiamo che io stia costruendo un modello di punteggio di credito: voglio conoscere la propensione delle persone al default su un prestito. Nei miei dati, ho una colonna che indica lo stato di un rapporto di credito. Cioè, ho ordinato il rapporto a un'agenzia di rating e l'agenzia ha restituito, ad esempio, il proprio punteggio proprietario, insieme a una variabile categoriale che indica l'affidabilità di questo punteggio. Questo indicatore potrebbe essere molto più multato rispetto a quello di cui ho bisogno per i miei scopi. Ad esempio, "nessuna informazione sufficiente per un punteggio affidabile" può essere suddivisa in molte classi come "meno di 20 anni", "recentemente trasferito nel paese", "nessuna storia creditizia precedente", ecc. Molte di queste classi può essere scarsamente popolata, e quindi piuttosto inutile in una regressione o in un altro modello. Per far fronte a questo, potrei voler raggruppare insieme classi simili per consolidare il potere statistico in una classe "rappresentativa". Ad esempio, può essere ragionevole per me utilizzare un indicatore binario "buone informazioni restituite" vs. "nessuna informazione restituita". Nella mia esperienza, molte applicazioni della secchezza rientrano in questo generalecollasso di tipi di categorie scarsamente popolate .
Alcuni algoritmi usano la bucket all'interno. Ad esempio, gli alberi inseriti negli algoritmi di potenziamento spesso trascorrono la maggior parte del loro tempo in una fase di riepilogo, in cui i dati continui in ciascun nodo vengono discretizzati e viene calcolato il valore medio della risposta in ciascun bucket. Ciò riduce notevolmente la complessità computazionale di trovare una divisione appropriata, senza molti sacrifici in termini di precisione a causa del potenziamento.
Puoi anche semplicemente ricevere dati pre-bucket. I dati discreti sono più facili da comprimere e archiviare: una lunga serie di numeri in virgola mobile è quasi incomprimibile, ma quando discretizzata in "alta", "media" e "bassa", è possibile risparmiare molto spazio nel database. I tuoi dati potrebbero anche provenire da una fonte destinata a un'applicazione non modellistica. Questo tende ad accadere molto quando ricevo dati da organizzazioni che svolgono meno lavoro analitico. I loro dati vengono spesso utilizzati per la segnalazione e sono riassunti a un livello elevato per aiutare con l'interpretazione dei rapporti ai laici. Questi dati possono ancora essere utili, ma spesso si perde potenza.
Ciò in cui vedo meno valore, anche se è possibile che io sia corretto, è la pre-bucket di misurazioni continue a fini di modellazione. Esistono molti metodi molto potenti per adattare gli effetti non lineari ai predittori continui e la buckeization rimuove la tua capacità di usarli. Tendo a vederlo come una cattiva pratica.