I dati organizzati in categorie discrete o * classi * possono presentare problemi per determinate analisi se il numero di osservazioni (n) appartenenti a ciascuna classe non è costante tra le classi. Classi con disugualin sono * sbilanciati *.
Va bene, quindi penso di avere un campione abbastanza decente, tenendo conto della regola empirica 20: 1: un campione abbastanza grande (N = 374) per un totale di 7 variabili predittive candidate. Il mio problema è il seguente: qualunque sia il set di variabili predittive che utilizzo, le classificazioni non …
Abbiamo già avuto più domande sui dati sbilanciati quando si utilizzano la regressione logistica , SVM , alberi delle decisioni , insaccamento e una serie di altre domande simili, ciò che lo rende un argomento molto popolare! Sfortunatamente, ciascuna delle domande sembra essere specifica dell'algoritmo e non ho trovato linee …
Ho un set di dati sotto forma di (funzionalità, output binario 0 o 1), ma 1 si verifica abbastanza raramente, quindi solo prevedendo sempre 0, ottengo una precisione tra il 70% e il 90% (a seconda dei dati particolari che guardo ). I metodi ML mi danno la stessa accuratezza, …
Questa è una domanda in generale, non specifica di alcun metodo o set di dati. Come affrontare un problema di squilibrio di classe nell'apprendimento automatico supervisionato in cui il numero di 0 è circa il 90% e il numero di 1 è circa il 10% nel set di dati. Come …
Sono nuovo del data mining e sto cercando di formare un albero decisionale su un set di dati che è altamente sbilanciato. Tuttavia, sto riscontrando problemi con scarsa precisione predittiva. I dati sono costituiti dagli studenti che studiano i corsi e la variabile di classe è lo stato del corso …
Se ho un set di dati con una classe positiva molto rara e eseguo il down-campionamento della classe negativa, quindi eseguo una regressione logistica, devo regolare i coefficienti di regressione per riflettere il fatto che ho cambiato la prevalenza della classe positiva? Ad esempio, supponiamo che io abbia un set …
Ultimamente ho pensato molto al "problema di squilibrio di classe" nell'apprendimento automatico / statistico e sto attingendo sempre più da un sentimento che non capisco cosa stia succedendo. Prima lasciami definire (o tentare di) definire i miei termini: Il problema dello squilibrio di classe nell'apprendimento automatico / statistico è l'osservazione …
Ho un compito di classificazione in cui ho un numero di predittori (uno dei quali è il più informativo) e sto usando il modello MARS per costruire il mio classificatore (sono interessato a qualsiasi modello semplice, e usare glms a scopo illustrativo sarebbe bene anche). Ora ho un enorme squilibrio …
Ho seguito un corso online, dove ho appreso, che le classi sbilanciate nei dati di allenamento potrebbero causare problemi, perché gli algoritmi di classificazione vanno per la regola della maggioranza, in quanto danno buoni risultati se lo squilibrio è troppo. In un incarico si dovevano bilanciare i dati tramite sottocampionamento …
Voglio fare un modello logistico dai miei dati del sondaggio. È un piccolo sondaggio di quattro colonie residenziali in cui sono stati intervistati solo 154 intervistati. La mia variabile dipendente è "transizione soddisfacente al lavoro". Ho scoperto che, tra i 154 intervistati, 73 hanno affermato di essere passati in modo …
Ho un set di dati molto squilibrato. Sto cercando di seguire i consigli di sintonizzazione e di utilizzare, scale_pos_weightma non sono sicuro di come sintonizzarmi. Vedo che RegLossObj.GetGradientfa: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight quindi un gradiente di un campione positivo sarebbe più influente. Tuttavia, secondo il documento xgboost …
In una domanda recente, ben accolta, Tim chiede quando i dati sbilanciati sono davvero un problema in Machine Learning ? La premessa della domanda è che c'è molta letteratura sull'apprendimento automatico che discute dell'equilibrio delle classi e del problema delle classi squilibrate . L'idea è che i set di dati …
Penso che un'ipotesi di base dell'apprendimento automatico o della stima dei parametri sia che i dati invisibili provengano dalla stessa distribuzione dell'insieme di formazione. Tuttavia, in alcuni casi pratici, la distribuzione del set di test sarà quasi diversa dal set di training. Supponiamo che si tratti di un problema di …
Mi occupo di un problema di rilevamento delle frodi (simile al credit scoring). Pertanto, esiste una relazione fortemente squilibrata tra osservazioni fraudolente e non fraudolente. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html offre un'ottima panoramica delle diverse metriche di classificazione. Precision and Recallo kappaentrambi sembrano essere una buona scelta: Un modo per giustificare i risultati di …
Ci sono state buone domande sulla gestione dei dati squilibrati nel contesto della classificazione , ma mi chiedo cosa facciano le persone per campionare per la regressione. Supponiamo che il dominio problematico sia molto sensibile al segno ma solo in qualche modo sensibile alla grandezza del bersaglio. Tuttavia la grandezza …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.