Hai ragione su entrambi i fronti. Vedi la pagina di Frank Harrell qui per un lungo elenco di problemi con il binning delle variabili continue. Se usi qualche cestino, butti via molte informazioni nei predittori; se ne usi molti tendi ad adattare le oscillazioni a quella che dovrebbe essere una relazione regolare, se non lineare, e consumare molti gradi di libertà. Generalmente meglio usare polinomi ( ) o spline (polinomi a tratti che si uniscono senza problemi) per i predittori. Il binning è davvero solo una buona idea quando ti aspetteresti una discontinuità nella risposta ai punti di interruzione, ad esempio la temperatura a cui bolle qualcosa o l'età legale per guidare, e quando la risposta è piatta tra di loro.x + x2+ ...
Il valore? —Bene, è un modo semplice e veloce per tenere conto della curvatura senza pensarci, e il modello potrebbe essere abbastanza buono per quello per cui lo stai usando. Tende a funzionare bene quando hai molti dati rispetto al numero di predittori, ogni predittore è diviso in molte categorie; in questo caso all'interno di ciascuna banda predittore l'intervallo di risposta è piccolo e la risposta media è determinata con precisione.
[Modifica in risposta ai commenti:
A volte ci sono limiti standard usati all'interno di un campo per una variabile continua: ad es. In medicina le misurazioni della pressione arteriosa possono essere classificate come basse, medie o alte. Potrebbero esserci molte buone ragioni per usare tali tagli quando presenti o applichi un modello. In particolare, le regole di decisione si basano spesso su meno informazioni rispetto a quelle contenute in un modello e potrebbe essere necessario applicarle in modo semplice. Ma non ne consegue che questi tagli sono appropriati per il binning dei predittori quando si adatta al modello.
Supponiamo che qualche risposta vari continuamente con la pressione sanguigna. Se nel tuo studio definisci un gruppo per la pressione alta come predittore, l'effetto che stai stimando è la risposta media alle particolari pressioni del sangue degli individui in quel gruppo. Non lo èuna stima della risposta media delle persone con ipertensione nella popolazione generale o delle persone nel gruppo per la pressione alta in un altro studio, a meno che non si adottino misure specifiche per farlo. Se la distribuzione della pressione sanguigna nella popolazione generale è nota, come immagino che sia, farai meglio a calcolare la risposta media delle persone con pressione alta nella popolazione generale sulla base delle previsioni del modello con la pressione sanguigna come variabile continua. Il binning grezzo rende il tuo modello solo approssimativamente generalizzabile.
In generale, se hai domande sul comportamento della risposta tra cut-off, adatta il modello migliore che puoi prima e poi usalo per rispondere.]
[Per quanto riguarda la presentazione; Penso che sia un'aringa rossa:
(1) La facilità di presentazione non giustifica decisioni di modellazione sbagliate. (E nei casi in cui il binning è una buona decisione di modellazione, non ha bisogno di ulteriori giustificazioni.) Sicuramente questo è evidente. Nessuno consiglia mai di escludere un'interazione importante da un modello perché è difficile da presentare.
(2) Qualunque sia il tipo di modello che si adatta, è ancora possibile presentare i risultati in termini di categorie se si ritiene che aiuterà l'interpretazione. Anche se ...
(3) Si deve stare attenti a fare in modo che non aiuta mis -interpretazione, per le ragioni di cui sopra.
(4) In realtà non è difficile presentare risposte non lineari. L'opinione personale, chiaramente, e il pubblico differiscono; ma non ho mai visto un grafico dei valori di risposta adattati rispetto ai valori di predittore che confondono qualcuno solo perché è curvo. Interazioni, logit, effetti casuali, multicollinearità, ... sono tutti molto più difficili da spiegare.]
[Un ulteriore punto sollevato da @Roland è l'esattezza della misurazione dei predittori; sta suggerendo, penso, che la categorizzazione potrebbe essere appropriata quando non sono particolarmente precisi. Il buon senso potrebbe suggerire di non migliorare le cose riaffermandole in modo ancora meno preciso, e il buon senso sarebbe giusto: MacCallum et al (2002), "Sulla pratica della dicotomizzazione delle variabili quantitative", Metodi psicologici , 7 , 1, pagg. 17-19.]