Cos'è la bucketizzazione?

10

Sono andato in giro per trovare una chiara spiegazione della "secchezza" nell'apprendimento automatico senza fortuna. Quello che ho capito fino ad ora è che la bucketizzazione è simile alla quantizzazione nell'elaborazione del segnale digitale in cui un intervallo di valori continui viene sostituito con un valore discreto. È corretto?

Quali sono i vantaggi e gli svantaggi (oltre all'ovvio impatto della perdita di informazioni) dell'applicazione della bucket? Ci sono delle regole pratiche su come applicare la bucket? Esistono linee guida / algoritmi per applicare la bucketizzazione prima dell'applicazione dell'apprendimento automatico?

machine-learning dataset data-preprocessing

— MedAli
fonte

Potrei non avere la risposta corretta, ma la classificazione grossolana e la classificazione fine [WoE e IV] mi aiutano a seccare. Scusami se non è quello che ti aspettavi.

— Srikanth Guhan,

4

Questo è un argomento ampio e incontrerai una serie di motivi per cui i dati dovrebbero essere, o già lo sono, ben definiti. Non tutti sono correlati alla precisione predittiva.

Innanzitutto, ecco un esempio in cui un modellatore potrebbe voler seccare. Supponiamo che io stia costruendo un modello di punteggio di credito: voglio conoscere la propensione delle persone al default su un prestito. Nei miei dati, ho una colonna che indica lo stato di un rapporto di credito. Cioè, ho ordinato il rapporto a un'agenzia di rating e l'agenzia ha restituito, ad esempio, il proprio punteggio proprietario, insieme a una variabile categoriale che indica l'affidabilità di questo punteggio. Questo indicatore potrebbe essere molto più multato rispetto a quello di cui ho bisogno per i miei scopi. Ad esempio, "nessuna informazione sufficiente per un punteggio affidabile" può essere suddivisa in molte classi come "meno di 20 anni", "recentemente trasferito nel paese", "nessuna storia creditizia precedente", ecc. Molte di queste classi può essere scarsamente popolata, e quindi piuttosto inutile in una regressione o in un altro modello. Per far fronte a questo, potrei voler raggruppare insieme classi simili per consolidare il potere statistico in una classe "rappresentativa". Ad esempio, può essere ragionevole per me utilizzare un indicatore binario "buone informazioni restituite" vs. "nessuna informazione restituita". Nella mia esperienza, molte applicazioni della secchezza rientrano in questo generalecollasso di tipi di categorie scarsamente popolate .

Alcuni algoritmi usano la bucket all'interno. Ad esempio, gli alberi inseriti negli algoritmi di potenziamento spesso trascorrono la maggior parte del loro tempo in una fase di riepilogo, in cui i dati continui in ciascun nodo vengono discretizzati e viene calcolato il valore medio della risposta in ciascun bucket. Ciò riduce notevolmente la complessità computazionale di trovare una divisione appropriata, senza molti sacrifici in termini di precisione a causa del potenziamento.

Puoi anche semplicemente ricevere dati pre-bucket. I dati discreti sono più facili da comprimere e archiviare: una lunga serie di numeri in virgola mobile è quasi incomprimibile, ma quando discretizzata in "alta", "media" e "bassa", è possibile risparmiare molto spazio nel database. I tuoi dati potrebbero anche provenire da una fonte destinata a un'applicazione non modellistica. Questo tende ad accadere molto quando ricevo dati da organizzazioni che svolgono meno lavoro analitico. I loro dati vengono spesso utilizzati per la segnalazione e sono riassunti a un livello elevato per aiutare con l'interpretazione dei rapporti ai laici. Questi dati possono ancora essere utili, ma spesso si perde potenza.

Ciò in cui vedo meno valore, anche se è possibile che io sia corretto, è la pre-bucket di misurazioni continue a fini di modellazione. Esistono molti metodi molto potenti per adattare gli effetti non lineari ai predittori continui e la buckeization rimuove la tua capacità di usarli. Tendo a vederlo come una cattiva pratica.

— Matthew Drury
fonte

4

Secondo l'articolo " secchezza di alto livello contro scienza dei dati di basso livello" è

Il passaggio di bucket (a volte chiamato binning multivariato) consiste nell'identificare le metriche (e le combinazioni di 2-3 metriche) con un elevato potere predittivo, combinarle e raccoglierle in modo appropriato, per ridurre la varianza all'interno della benna mantenendo le benne abbastanza grandi.

Quindi la mia comprensione è che bin avidamente i dati secondo le funzionalità più predittive, quindi analizza i sottogruppi.

— Arthur B.
fonte