I dati organizzati in categorie discrete o * classi * possono presentare problemi per determinate analisi se il numero di osservazioni (n) appartenenti a ciascuna classe non è costante tra le classi. Classi con disugualin sono * sbilanciati *.
Voglio modellare una regressione logistica con dati sbilanciati (9: 1). Volevo provare l'opzione pesi nella glmfunzione in R, ma non sono sicuro al 100% di ciò che fa. Diciamo che la mia variabile di output è c(0,0,0,0,0,0,0,0,0,1). ora voglio dare l '"1" 10 volte più peso. quindi do l'argomento pesi …
Sono corretto nel comprendere che l'ordine in cui le variabili sono specificate in un ANOVA multifattoriale fa la differenza ma che l'ordine non ha importanza quando si esegue una regressione lineare multipla? Supponendo quindi un risultato come la perdita di sangue misurata y e due variabili categoriche metodo di adenoidectomia …
Sto lavorando a dati gravemente squilibrati. In letteratura, vengono utilizzati diversi metodi per riequilibrare i dati utilizzando il ricampionamento (sovra o sottocampionamento). Due buoni approcci sono: SMOTE: Tecnica di sovracampionamento di minoranza sintetica ( SMOTE ) ADASYN: Approccio di campionamento sintetico adattivo per l'apprendimento sbilanciato ( ADASYN ) Ho implementato …
Ho appena finito di leggere questa discussione. Sostengono che PR AUC è migliore di ROC AUC su set di dati non bilanciati. Ad esempio, abbiamo 10 campioni nel set di dati di prova. 9 campioni sono positivi e 1 è negativo. Abbiamo un modello terribile che prevede tutto positivo. Pertanto, …
Ho a che fare con un problema di classificazione binaria supervisionata. Vorrei utilizzare il pacchetto GBM per classificare le persone come non infette / infette. Ho 15 volte più infetto di individui infetti. Mi chiedevo se i modelli GBM soffrono nel caso di classi di dimensioni squilibrate? Non ho trovato …
Ho un set di dati con alcuni milioni di righe e ~ 100 colonne. Vorrei rilevare circa l'1% degli esempi nel set di dati, che appartengono a una classe comune. Ho un limite di precisione minimo, ma a causa del costo molto asimmetrico non sono troppo appassionato di alcun richiamo …
Voglio provare a utilizzare Support Vector Machines (SVM) sul mio set di dati. Prima di tentare il problema, però, sono stato avvertito che le SVM non funzionano bene con dati estremamente sbilanciati. Nel mio caso, posso avere fino al 95-98% 0 e 2-5% 1. Ho cercato di trovare risorse che …
Mi chiedevo se qualcuno potesse spiegare la differenza tra precisione bilanciata che è b_acc = (sensitivity + specificity)/2 e punteggio f1 che è: f1 = 2*precision*recall/(precision + recall)
Prima di tutto, vorrei descrivere alcuni layout comuni utilizzati dai libri di Data Mining spiegando come gestire i set di dati non bilanciati . Di solito la sezione principale è denominata set di dati non bilanciati e copre queste due sottosezioni: classificazione sensibile ai costi e tecniche di campionamento. Sembra …
Sto provando a incrementare il gradiente su un set di dati con un tasso di eventi di circa l'1% utilizzando Enterprise miner, ma non riesce a produrre alcun output. La mia domanda è, dato che si tratta di un approccio basato sull'albero decisionale, è anche giusto usare il boost gradiente …
PREFAZIONE: non mi interessa il merito di usare un taglio o no, o come si dovrebbe scegliere un taglio. La mia domanda è puramente matematica e dovuta alla curiosità. La regressione logistica modella la probabilità condizionale posteriore della classe A rispetto alla classe B e si adatta a un iperpiano …
Sto cercando di risolvere un compito chiamato rilevamento dei pedoni e alleno il clasifer binario su due categorie di aspetti positivi: persone, aspetti negativi, sfondo. Ho un set di dati: numero di positivi = 3752 numero di negativi = 3800 Uso train \ test split 80 \ 20% e RandomForestClassifier …
Vorrei testare il mio modello addestrato su un set di dati non bilanciato. Sono disponibili algoritmi per generare dati sintetici da un set di dati con etichette bilanciate (spam / non spam)?
Sto cercando di creare un rilevatore di oggetti che si verificano molto raramente (nelle immagini), pianificando di utilizzare un classificatore binario CNN applicato in una finestra scorrevole / ridimensionata. Ho costruito set di allenamento e test 1: 1 bilanciati positivi e negativi (è una cosa giusta da fare in questo …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.