Qual è il vantaggio di spezzare una variabile predittiva continua?


78

Mi chiedo quale sia il valore nel prendere una variabile predittiva continua e scomporla (ad es. In quintili), prima di usarla in un modello.

Mi sembra che, binning della variabile, perdiamo informazioni.

  • È solo per poter modellare effetti non lineari?
  • Se mantenessimo la variabile continua e in realtà non fosse una relazione lineare diretta, dovremmo trovare una sorta di curva per adattarsi al meglio ai dati?

12
1) No. Hai ragione, il binning perde informazioni. Dovrebbe essere evitato, se possibile. 2) In generale, è preferita la funzione curva che è coerente con la teoria alla base dei dati.
O_Devinyak,

8
Non conosco i benefici, ma ci sono una serie di pericoli ampiamente riconosciuti
Glen_b

2
Un'argomentazione riluttante per questo, a volte: può semplificare l'interpretazione clinica e la presentazione dei risultati - ad es. la pressione sanguigna è spesso un predittore quadratico e un medico può supportare l'uso di valori soglia per BP bassa, normale e alta e può essere interessato a confrontare questi ampi gruppi.
user20650

4
@ user20650: Non sono del tutto sicuro di averti capito, ma non sarebbe meglio adattarsi al modello migliore che puoi, e quindi utilizzare le previsioni di quel modello per dire tutto quello che vuoi dire sui gruppi ampi? Il "gruppo di alta pressione sanguigna" nel mio studio non avrà necessariamente la stessa distribuzione di pressioni della popolazione generale, quindi i loro risultati non si generalizzeranno.
Scortchi - Ripristina Monica

7
L'interpretazione clinica semplificata è un miraggio. Le stime degli effetti da variabili continue categorizzate non hanno alcuna interpretazione nota.
Frank Harrell,

Risposte:


64

Hai ragione su entrambi i fronti. Vedi la pagina di Frank Harrell qui per un lungo elenco di problemi con il binning delle variabili continue. Se usi qualche cestino, butti via molte informazioni nei predittori; se ne usi molti tendi ad adattare le oscillazioni a quella che dovrebbe essere una relazione regolare, se non lineare, e consumare molti gradi di libertà. Generalmente meglio usare polinomi ( ) o spline (polinomi a tratti che si uniscono senza problemi) per i predittori. Il binning è davvero solo una buona idea quando ti aspetteresti una discontinuità nella risposta ai punti di interruzione, ad esempio la temperatura a cui bolle qualcosa o l'età legale per guidare, e quando la risposta è piatta tra di loro.X+X2+...

Il valore? —Bene, è un modo semplice e veloce per tenere conto della curvatura senza pensarci, e il modello potrebbe essere abbastanza buono per quello per cui lo stai usando. Tende a funzionare bene quando hai molti dati rispetto al numero di predittori, ogni predittore è diviso in molte categorie; in questo caso all'interno di ciascuna banda predittore l'intervallo di risposta è piccolo e la risposta media è determinata con precisione.

[Modifica in risposta ai commenti:

A volte ci sono limiti standard usati all'interno di un campo per una variabile continua: ad es. In medicina le misurazioni della pressione arteriosa possono essere classificate come basse, medie o alte. Potrebbero esserci molte buone ragioni per usare tali tagli quando presenti o applichi un modello. In particolare, le regole di decisione si basano spesso su meno informazioni rispetto a quelle contenute in un modello e potrebbe essere necessario applicarle in modo semplice. Ma non ne consegue che questi tagli sono appropriati per il binning dei predittori quando si adatta al modello.

Supponiamo che qualche risposta vari continuamente con la pressione sanguigna. Se nel tuo studio definisci un gruppo per la pressione alta come predittore, l'effetto che stai stimando è la risposta media alle particolari pressioni del sangue degli individui in quel gruppo. Non lo èuna stima della risposta media delle persone con ipertensione nella popolazione generale o delle persone nel gruppo per la pressione alta in un altro studio, a meno che non si adottino misure specifiche per farlo. Se la distribuzione della pressione sanguigna nella popolazione generale è nota, come immagino che sia, farai meglio a calcolare la risposta media delle persone con pressione alta nella popolazione generale sulla base delle previsioni del modello con la pressione sanguigna come variabile continua. Il binning grezzo rende il tuo modello solo approssimativamente generalizzabile.

In generale, se hai domande sul comportamento della risposta tra cut-off, adatta il modello migliore che puoi prima e poi usalo per rispondere.]

[Per quanto riguarda la presentazione; Penso che sia un'aringa rossa:

(1) La facilità di presentazione non giustifica decisioni di modellazione sbagliate. (E nei casi in cui il binning è una buona decisione di modellazione, non ha bisogno di ulteriori giustificazioni.) Sicuramente questo è evidente. Nessuno consiglia mai di escludere un'interazione importante da un modello perché è difficile da presentare.

(2) Qualunque sia il tipo di modello che si adatta, è ancora possibile presentare i risultati in termini di categorie se si ritiene che aiuterà l'interpretazione. Anche se ...

(3) Si deve stare attenti a fare in modo che non aiuta mis -interpretazione, per le ragioni di cui sopra.

(4) In realtà non è difficile presentare risposte non lineari. L'opinione personale, chiaramente, e il pubblico differiscono; ma non ho mai visto un grafico dei valori di risposta adattati rispetto ai valori di predittore che confondono qualcuno solo perché è curvo. Interazioni, logit, effetti casuali, multicollinearità, ... sono tutti molto più difficili da spiegare.]

[Un ulteriore punto sollevato da @Roland è l'esattezza della misurazione dei predittori; sta suggerendo, penso, che la categorizzazione potrebbe essere appropriata quando non sono particolarmente precisi. Il buon senso potrebbe suggerire di non migliorare le cose riaffermandole in modo ancora meno preciso, e il buon senso sarebbe giusto: MacCallum et al (2002), "Sulla pratica della dicotomizzazione delle variabili quantitative", Metodi psicologici , 7 , 1, pagg. 17-19.]


6
Ottimi commenti su un problema pervasivo. È importante propagandare per un pensiero completamente quantitativo qui. C'è già troppa enfasi sull'attraversamento delle soglie, ad esempio sopra un disastro di livello, sotto un certo livello di comfort.
Nick Cox,

14
Sfiderei chiunque a mostrare una convalida di eventuali tagli utilizzati dai medici.
Frank Harrell,

Vale la pena notare che questo approccio di binning ha alcuni vantaggi in altre aree: è particolarmente popolare quando combinato con reti neurali di grandi dimensioni per prevedere le distribuzioni multimodali come l'orientamento del veicolo. Vedi ad esempio arxiv.org/abs/1612.00496 .
N. McA.

11

Una parte di questa risposta che ho imparato da quando ho chiesto è che il binning e il binning non cercano di rispondere a due domande leggermente diverse: qual è la variazione incrementale nei dati? e Qual è la differenza tra il più basso e il più alto? .

Non il binning dice "questa è una quantificazione della tendenza osservata nei dati" e il binning dice "Non ho abbastanza informazioni per dire quanto questo cambia di ogni incremento, ma posso dire che la parte superiore è diversa dalla parte inferiore" .


5

Come medico, penso che la risposta dipenda da cosa vuoi fare. Se vuoi fare la misura migliore o fare la regolazione migliore puoi usare variabili continue e quadrate.

Se vuoi descrivere e comunicare associazioni complicate per un pubblico non statisticamente orientato, l'uso delle variabili categorizzate è migliore, accettando che potresti dare alcuni risultati leggermente distorti nell'ultimo decimale. Preferisco usare almeno tre categorie per mostrare le associazioni non lineari. L'alternativa è produrre grafici e risultati previsti in determinati punti. Quindi potrebbe essere necessario produrre una famiglia di grafici per ogni covariata continua che può essere interessante. Se hai paura di avere troppi pregiudizi, penso che puoi testare entrambi i modelli e vedere se la differenza è importante o meno. Devi essere pratico e realistico.

Penso che potremmo renderci conto che in molte situazioni cliniche i nostri calcoli non si basano su dati esatti e quando ad esempio prescrivo un medicinale ad un adulto non lo faccio comunque con mg esatti per chilo (la parabola con la scelta tra chirurgia e trattamento medico è solo una sciocchezza).


1
Perché esattamente l'analogia non ha senso? Perché categorizzare le variabili continue non produce mai modelli significativamente peggiori? O perché l'uso di un modello significativamente peggiore non ha mai conseguenze pratiche?
Scortchi - Ripristina Monica

9
Questo non è semplicemente il caso di @Roland. Le stime ottenute dai tagli sono solo semplici perché le persone non comprendono ciò che stimano le stime. Questo perché non stimano una quantità scientifica, cioè una quantità che ha un significato al di fuori del campione o dell'esperimento. Ad esempio il rapporto di probabilità alto: basso o la differenza media aumenterà se si aggiungono pazienti con valori ultra-alti o ultra-bassi al set di dati. Inoltre, l'uso dei tagli implica che la biologia è discontinua, il che non è il caso.
Frank Harrell,

@Scortchi Passare dal trattamento medico a quello chirurgico perché è più facile da spiegare (è davvero?) Sarebbe come sostituire l'età con l'altezza come variabile esplicativa.
Roland,

Concordo sull'evitare variabili dicotomizzate. La medicina clinica non è una scienza rocke in cui l'ultimo decimale è importante. Nei modelli con cui lavoro i risultati cambiano all'ultimo decimale solo se uso le categorie di età contro età come variabili continue e quadrate ma aumenta enormemente la comprensione e la comunicabilità delle associazioni.
Roland,

4

Come menzionato nei precedenti poster, in genere è meglio evitare la dicotomizzazione di una variabile continua. Tuttavia, in risposta alla tua domanda, ci sono casi in cui la dicotomizzazione di una variabile continua conferisce vantaggi.

Ad esempio, se una determinata variabile contiene valori mancanti per una proporzione significativa della popolazione, ma è noto per essere altamente predittivi e i valori mancanti stessi hanno valore predittivo. Ad esempio, in un modello di scoring del credito, si consideri una variabile, diciamo un bilancio di credito revolving medio (che concesso, non è tecnicamente continuo, ma in questo caso rispecchia una distribuzione normale abbastanza vicina da essere trattata come tale), che contiene valori mancanti per circa il 20% del pool candidato in un determinato mercato di riferimento. In questo caso, i valori mancanti per questa variabile rappresentano una classe distinta - coloro che non hanno una linea di credito revolving aperta; questi clienti mostreranno un comportamento completamente diverso rispetto, per esempio, a quelli con linee di credito rotative disponibili, ma che regolarmente non presentano alcun equilibrio.

Un altro vantaggio della dicotomizzazione: può essere utilizzato per mitigare gli effetti di valori anomali significativi che distorcono i coefficienti, ma rappresentano casi realistici che devono essere gestiti. Se i valori anomali non differiscono notevolmente nel risultato da altri valori nei percentili più vicini, ma inclinano i parametri abbastanza da influire sull'accuratezza marginale, può essere utile raggrupparli con valori che mostrano effetti simili.

A volte una distribuzione si presta naturalmente a un insieme di classi, nel qual caso la dicotomizzazione ti darà in realtà un grado di precisione superiore rispetto a una funzione continua.

Inoltre, come accennato in precedenza, a seconda del pubblico, la facilità di presentazione può superare le perdite di precisione. Per utilizzare nuovamente il punteggio di credito come esempio, in pratica l'alto grado di regolamentazione costituisce talvolta un caso pratico di discretizzazione. Mentre un più alto grado di accuratezza potrebbe aiutare il finanziatore a ridurre le perdite, i professionisti devono anche considerare che i modelli devono essere facilmente comprensibili da parte delle autorità di regolamentazione (che possono richiedere migliaia di pagine di documentazione del modello) e che i consumatori, a cui viene negato il credito, hanno legalmente diritto a un spiegazione del perché.

Tutto dipende dal problema attuale e dai dati, ma ci sono certamente casi in cui la dicotomizzazione ha i suoi meriti.


La dicotomizzazione si sta mettendo in due scomparti: vuoi dire discretizzazione?
Scortchi - Ripristina Monica

2
In entrambi i tuoi primi due esempi, la discretizzazione sta cercando di fare il bluff alla festa aggrappandosi a un ospite in buona fede. Non farti ingannare. (1) Se si desidera modellare non avere una linea di credito revolving aperta come classe distinta, utilizzare semplicemente una variabile fittizia per indicare tale condizione e assegnare qualsiasi valore costante per il saldo del credito revolving medio. (2) Se si desidera trattare determinati valori predittivi estremi in modo identico, come "grande" o "piccolo", troncarli; non c'è bisogno di scherzare con il resto dei valori. Il terzo caso non è contestato: sentiti libero di aggiungere esempi.
Scortchi - Ripristina Monica

3

Se una variabile ha un effetto su una soglia specifica, creare una nuova variabile eseguendo il binning è una buona cosa da fare. Tengo sempre entrambe le variabili, una originale e una binning, e controllo quale variabile è un predittore migliore.


3

Sono un fan impegnato del consiglio di Frank Harrell secondo cui gli analisti dovrebbero resistere alla discretizzazione prematura dei dati continui. E ho diverse risposte su CV e SO che dimostrano come visualizzare le interazioni tra variabili continue, dal momento che penso che sia una linea di indagine ancora più preziosa. Tuttavia, ho anche esperienza nel mondo medico nel mondo medico degli ostacoli all'adesione a questo consiglio. Ci sono spesso divisioni interessanti che sia i medici che i non clinici si aspettano per "divisioni". Il "limite superiore del normale" convenzionale è uno di questi punti di divisione "naturali". Uno sta essenzialmente esaminando prima il fondamento statistico di una relazione e quindi comunicando la sostanza dei risultati in termini che il pubblico si aspetta e può facilmente comprendere. Nonostante la mia "allergia" ai grafici a barre, sono estremamente comuni nel discorso scientifico e medico. Quindi è probabile che il pubblico abbia un modello cognitivo già pronto per elaborarli e sarà in grado di integrare i risultati nella loro base di conoscenza.

Inoltre, la visualizzazione grafica delle interazioni modellate tra forme non lineari di variabili predittive richiede presentazioni di grafici di contorni o schermate wireframe che la maggior parte del pubblico avrà qualche difficoltà a digerire. Ho trovato il pubblico medico e generale più ricettivo alle presentazioni che hanno discretizzato e segmentato i risultati. Quindi suppongo che la conclusione sia che la suddivisione viene eseguita correttamente dopo che l'analisi statistica è stata completata; e viene fatto in fase di presentazione.


1

Molte volte il binning delle variabili continue ha la sensazione di causare un danno a causa della perdita di informazioni. Tuttavia, non solo è possibile limitare la perdita di informazioni, ma è anche possibile ottenere informazioni e ottenere maggiori vantaggi.

Se si utilizza il binning e si ottengono variabili categorizzate, è possibile applicare algoritmi di apprendimento non applicabili alle variabili continue. Il tuo set di dati potrebbe adattarsi meglio a uno di questi algoritmi, quindi ecco il tuo primo vantaggio.

L'idea di stimare la perdita dovuta al binning si basa sull'articolo "Apprendimento PAC con attributi irrilevanti". Supponiamo che il nostro concetto sia binario in modo da poter dividere i campioni in positivi e negativi. Per ogni coppia di un campione negativo e uno positivo, la differenza di concetto potrebbe essere spiegata da una differenza in una delle caratteristiche (o altrimenti, non è spiegabile dalle caratteristiche fornite). L'insieme delle differenze di funzionalità è l'insieme delle possibili spiegazioni alla differenza di concetto, quindi i dati da utilizzare per determinare il concetto. Se facessimo il binning e ottenessimo lo stesso insieme di spiegazioni per le coppie, non avremmo perso tutte le informazioni necessarie (rispetto agli algoritmi di apprendimento che funzionano con tali confronti). Se la nostra categorizzazione sarà molto severa, avremo probabilmente una serie più piccola di possibili spiegazioni, ma saremo in grado di misurare accuratamente quanto e dove perdiamo. Ciò ci consentirà di scambiare il numero di bin rispetto a una serie di spiegazioni.

Finora abbiamo visto che potremmo non perdere a causa della categorizzazione, ma se consideriamo l'applicazione di un tale passo vorremmo beneficiare. In effetti, possiamo beneficiare della categorizzazione

Molti algoritmi di apprendimento a cui verrà chiesto di classificare un campione con valori non visti sul set di treni, considereranno il valore "sconosciuto". Quindi avremo un cestino di "sconosciuto" che include TUTTI i valori non visti durante il treno (o addirittura non visti abbastanza). Per tali algoritmi, la differenza tra coppie di valori sconosciuti non verrà utilizzata per migliorare la classificazione. Confronta le tue coppie dopo il binning con le coppie con sconosciuto e vedi se il tuo binning è utile e hai effettivamente guadagnato.

È possibile stimare quanto saranno comuni i valori sconosciuti controllando la distribuzione dei valori di ciascuna funzione. Caratteristica erano i valori che compaiono solo poche volte sono una parte considerevole della loro distribuzione sono buoni candidati per il binning. Nota che in molti scenari avrai molte caratteristiche con sconosciuto che aumenta la probabilità che un campione contenga un valore sconosciuto. Gli algoritmi che trattano tutte o molte delle funzionalità sono soggetti a errori in tali situazioni.

A. Dhagat e L. Hellerstein, "Apprendimento PAC con attributi irrilevanti", in "Atti dell'IEEE Symp. on Foundation of Computer Science ", 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.