Binning significa raggruppare una variabile continua in categorie discrete. È particolarmente utilizzato in riferimento agli istogrammi, ma potrebbe anche essere utilizzato più in generale nel senso di grossolano.
Supponiamo che io voglia vedere se i miei dati sono esponenziali in base a un istogramma (cioè inclinato a destra). A seconda di come raggruppo o bin i dati, posso ottenere istogrammi selvaggiamente diversi. Una serie di istogrammi farà sembrare che i dati siano esponenziali. Un altro set farà sembrare …
Mi chiedo quale sia il valore nel prendere una variabile predittiva continua e scomporla (ad es. In quintili), prima di usarla in un modello. Mi sembra che, binning della variabile, perdiamo informazioni. È solo per poter modellare effetti non lineari? Se mantenessimo la variabile continua e in realtà non fosse …
In questo commento , Nick Cox ha scritto: Il binning in classi è un metodo antico. Mentre gli istogrammi possono essere utili, i moderni software statistici rendono semplice e consigliabile adattare le distribuzioni ai dati grezzi. Il binning elimina solo i dettagli che sono cruciali per determinare quali distribuzioni sono …
Quando dovremmo discretizzare / binare variabili / caratteristiche indipendenti e quando no? I miei tentativi di rispondere alla domanda: In generale, non dovremmo fare il bin, perché il binning perderà informazioni. Il binning sta effettivamente aumentando il grado di libertà del modello, quindi è possibile causare un eccesso di adattamento …
Lasciando da parte l'ovvia questione della bassa potenza del chi-quadro in questo tipo di circostanza, immagina di fare un test chi-quadrato di test per una certa densità con parametri non specificati, binning dei dati. Per concretezza, diciamo una distribuzione esponenziale con media sconosciuta e una dimensione del campione di dire …
Diciamo che ho due distribuzioni che voglio confrontare in dettaglio, cioè in un modo che rende facilmente visibili forma, scala e spostamento. Un buon modo per farlo è quello di tracciare un istogramma per ogni distribuzione, metterli sulla stessa scala X e impilare uno sotto l'altro. Nel fare ciò, come …
Sto cercando il metodo di binning ottimale (discretizzazione) di una variabile continua rispetto a una determinata variabile binaria di risposta (target) e con il numero massimo di intervalli come parametro. esempio: ho un insieme di osservazioni di persone con variabili "height" (numeral continue) e "has_back_pains" (binarie). Voglio discretizzare l'altezza in …
Sto cercando di avvolgere la mia testa attorno al risultato del teorema di Bayes applicato al classico esempio di mammografia, con la svolta della mammografia perfetta. Questo è, Incidenza del cancro:.01.01.01 Probabilità di una mammografia positiva, dato che il paziente ha il cancro:111 Probabilità di una mammografia positiva, dato che …
Sto cercando di bin in modo intelligente una raccolta ordinata. Ho una raccolta di pezzi di dati. Ma so che questi dati si inseriscono in bidoni di dimensioni diverse. Non so come scegliere in modo intelligente gli endpoint per adattarli correttamente ai dati. per esempio:mnnnmmm Supponiamo di avere 12 articoli …
Quindi ho letto alcuni post sul perché il binning dovrebbe sempre essere evitato. Un riferimento popolare per tale affermazione è questo link . La fuga principale è che i punti di binning (o punti di interruzione) sono piuttosto arbitrari così come la conseguente perdita di informazioni e che le spline …
Voglio quantificare la relazione tra due variabili, A e B, usando le informazioni reciproche. Il modo per calcolarlo è binning delle osservazioni (vedi esempio codice Python di seguito). Tuttavia, quali fattori determinano quale numero di bin è ragionevole? Ho bisogno che il calcolo sia veloce, quindi non posso semplicemente usare …
Questo è solo un esempio che ho riscontrato più volte, quindi non ho dati di esempio. Esecuzione di un modello di regressione lineare in R: a.lm = lm(Y ~ x1 + x2) x1è una variabile continua. x2è categorico e ha tre valori, ad esempio "Basso", "Medio" e "Alto". Tuttavia, l'output …
Sto implementando vari algoritmi per stimare il miglior numero di bin da utilizzare per gli istogrammi. La maggior parte di quelli che sto implementando sono descritti nella pagina "Istogramma" di Wikipedia nella sezione " Numero di bin e larghezza " *. Sono bloccato su un problema con la formula di …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.