Domande taggate «classification»

La classificazione statistica è il problema di identificare la sottopopolazione a cui appartengono le nuove osservazioni, in cui l'identità della sottopopolazione è sconosciuta, sulla base di una serie di dati di formazione contenenti osservazioni di cui è nota la sottopopolazione. Pertanto queste classificazioni mostreranno un comportamento variabile che può essere studiato dalle statistiche.


1
Classificatori di machine learning big-O o complessità
Per valutare le prestazioni di un nuovo algoritmo di classificazione, sto cercando di confrontare l'accuratezza e la complessità (big-O in formazione e classificazione). Dall'apprendimento automatico: una recensione ottengo un elenco completo dei classificatori supervisionati, anche una tabella di precisione tra gli algoritmi e 44 problemi di test dal deposito di …

3
Ponderazione dei dati più recenti nel modello Foresta casuale
Sto addestrando un modello di classificazione con Random Forest per discriminare tra 6 categorie. I miei dati transazionali hanno circa 60k + osservazioni e 35 variabili. Ecco un esempio di come appare approssimativamente. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | …

1
Utilizzo di LASSO su foreste casuali
Vorrei creare una foresta casuale usando il seguente processo: Costruisci un albero su un campione casuale di dati e caratteristiche usando il guadagno delle informazioni per determinare le divisioni Terminare un nodo foglia se supera una profondità predefinita O qualsiasi divisione comporterebbe un conteggio delle foglie inferiore a un minimo …





1
Quando le classi sbilanciate in eccesso o in sottocampionamento, la massimizzazione della precisione differisce dalla minimizzazione dei costi di classificazione errata?
Prima di tutto, vorrei descrivere alcuni layout comuni utilizzati dai libri di Data Mining spiegando come gestire i set di dati non bilanciati . Di solito la sezione principale è denominata set di dati non bilanciati e copre queste due sottosezioni: classificazione sensibile ai costi e tecniche di campionamento. Sembra …

3
I modelli CART possono essere resi robusti?
Un collega nel mio ufficio mi ha detto oggi "I modelli di alberi non sono buoni perché vengono catturati da osservazioni estreme". Una ricerca qui ha portato a questa discussione che sostanzialmente supporta l'affermazione. Il che mi porta alla domanda: in quale situazione un modello CART può essere robusto e …

2
Perché la stima OOB della foresta casuale di errore migliora quando si riduce il numero di funzionalità selezionate?
Sto applicando un algoritmo di foresta casuale come classificatore su un set di dati di microarray che sono divisi in due gruppi noti con migliaia di funzionalità. Dopo la corsa iniziale guardo l'importanza delle funzionalità ed eseguo di nuovo l'algoritmo dell'albero con le funzionalità più importanti 5, 10 e 20. …


1
Caret glmnet vs cv.glmnet
Sembra esserci molta confusione nel confronto tra l'uso di glmnetinside caretper cercare un lambda ottimale e l'utilizzo cv.glmnetper fare lo stesso compito. Sono state poste molte domande, ad esempio: Modello di classificazione train.glmnet vs. cv.glmnet? Qual è il modo corretto di usare glmnet con il cursore? Convalida incrociata di `glmnet` …

1
GAM vs LOESS vs spline
Contesto : Voglio tracciare una linea in un grafico a dispersione che non appare parametrico, quindi sto usando geom_smooth()in ggplota R. Restituisce automaticamente geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.