Statistiche e Big Data feature-selection

5

Dobbiamo ancora fare la selezione delle funzionalità durante l'utilizzo degli algoritmi di regolarizzazione?

Ho una domanda per quanto riguarda la necessità di utilizzare i metodi di selezione delle caratteristiche (le foreste casuali presentano un valore di importanza o i metodi di selezione delle caratteristiche univariati, ecc.) Prima di eseguire un algoritmo di apprendimento statistico. Sappiamo che per evitare un eccesso di adattamento possiamo …

20 regression machine-learning feature-selection lasso regularization

2

Test di significatività o cross validation?

Due approcci comuni per la selezione di variabili correlate sono i test di significatività e la validazione incrociata. Quale problema ciascuno cerca di risolvere e quando preferirei l'uno all'altro?

20 cross-validation feature-selection

2

Che senso ha fare OLS dopo la selezione delle variabili LASSO?

Recentemente ho scoperto che nella letteratura di econometria applicata, quando si affrontano i problemi di selezione delle caratteristiche, non è raro eseguire LASSO seguito da una regressione OLS usando le variabili selezionate. Mi chiedevo come possiamo qualificare la validità di tale procedura. Causerà problemi come le variabili omesse? Qualche prova …

20 regression feature-selection econometrics least-squares lasso

1

Cosa concludere da questa trama lazo (glmnet)

Di seguito è riportato il diagramma di glmnet con alpha predefinito (1, quindi lazo) che utilizza il mtcarsset di dati in R con mpgcome DV e altri come variabili predittive. glmnet(as.matrix(mtcars[-1]), mtcars[,1]) Cosa possiamo concludere da questo diagramma riguardo alle diverse variabili, in particolare am, cyle wt(linee rosse, nere e …

19 regression feature-selection lasso glmnet

2

Significato del predittore categorico nella regressione logistica

Ho problemi a interpretare i valori z per le variabili categoriali nella regressione logistica. Nell'esempio che segue ho una variabile categoriale con 3 classi e in base al valore z, CLASS2 potrebbe essere rilevante mentre le altre no. Ma ora cosa significa? Che potrei unire le altre classi in una? …

19 r logistic categorical-data feature-selection categorical-encoding

1

Che cos'è lo "spazio funzioni"?

Qual è la definizione di "spazio funzionalità"? Ad esempio, durante la lettura di SVM, ho letto di "mapping allo spazio delle caratteristiche". Durante la lettura di CART, ho letto di "partizionare nello spazio delle funzionalità". Capisco cosa sta succedendo, specialmente per CART, ma penso che ci sia qualche definizione che …

19 machine-learning svm feature-selection cart feature-construction

2

LASSO soffre degli stessi problemi della regressione graduale?

I metodi di selezione delle variabili algoritmiche graduali tendono a selezionare per i modelli che influenzano più o meno ogni stima nei modelli di regressione ( e loro SE, valori p , statistiche F , ecc.) E hanno la probabilità di escludere predittori reali quanto includere falsi predittori secondo una …

18 regression feature-selection lasso regression-strategies stepwise-regression

2

Velocità, spese di calcolo di PCA, LASSO, rete elastica

Sto cercando di confrontare la complessità computazionale / la velocità di stima di tre gruppi di metodi per la regressione lineare, come distinto in Hastie et al. "Elements of Statistical Learning" (2a edizione), capitolo 3: Selezione del sottoinsieme Metodi di restringimento Metodi che utilizzano direzioni di input derivate (PCR, PLS) …

18 machine-learning estimation feature-selection algorithms time-complexity

1

Paradosso nella selezione dei modelli (AIC, BIC, per spiegare o prevedere?)

Dopo aver letto "To Explain or to Predict" (2010) di Galit Shmueli, sono perplesso da un'apparente contraddizione. Ci sono tre premesse, Scelta del modello basata su AIC rispetto a BIC (fine di p. 300 - inizio di p. 301): in poche parole, AIC dovrebbe essere usato per selezionare un modello …

18 forecasting model-selection feature-selection aic bic

4

Come calcolare il numero di funzioni in base alla risoluzione dell'immagine?

Abbiamo appena trattato l'ipotesi non lineare di Neturalrks neurali di Andrew Ng e abbiamo avuto una domanda a scelta multipla per determinare il numero di funzioni per un'immagine con una risoluzione di 100x100 di intensità in scala di grigi . E la risposta è stata di 50 milioni, 555 x …

18 feature-selection image-processing

5

Variabilità nei risultati di cv.glmnet

Sto usando cv.glmnetper trovare predittori. L'impostazione che utilizzo è la seguente: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Per assicurarsi che i risultati sono riproducibili io set.seed(1). I risultati sono molto variabili. Ho eseguito esattamente lo stesso codice 100 per vedere quanto variabili fossero i risultati. Nelle corse 98/100 era sempre stato …

18 r cross-validation feature-selection glmnet

3

Costruire un classificatore multiclasse è migliore di molti binari?

Devo classificare gli URL in categorie. Supponiamo di avere 15 categorie a cui sto pianificando di azzerare ogni URL. Un classificatore a 15 vie è migliore? Dove ho 15 etichette e generare funzionalità per ciascun punto dati. O costruendo 15 classificatori binari, dì: Film o Non film, e usa i …

18 machine-learning classification categorical-data svm feature-selection

5

Comprensione delle funzionalità più importanti per la regressione logistica

Ho creato un classificatore di regressione logistica che è molto preciso sui miei dati. Ora voglio capire meglio perché funziona così bene. In particolare, vorrei classificare quali caratteristiche stanno apportando il contributo maggiore (quali sono le funzioni più importanti) e, idealmente, quantificare quanto ciascuna funzionalità contribuisce alla precisione del modello …

17 machine-learning logistic feature-selection importance

3

Inferenza dopo aver usato Lazo per la selezione delle variabili

Sto usando Lazo per la selezione delle caratteristiche in un'impostazione dimensionale relativamente bassa (n >> p). Dopo aver montato un modello Lazo, voglio usare le covariate con coefficienti diversi da zero per adattarlo a un modello senza penalità. Lo sto facendo perché voglio stime imparziali che Lasso non può darmi. …

17 regression feature-selection lasso unbiased-estimator

1

In una foresta casuale,% IncMSE maggiore è migliore o peggiore?

Dopo aver creato un modello di foresta casuale (regressione) in R, la chiamata rf$importancemi fornisce due misure per ciascuna variabile predittore %IncMSEe IncNodePurity. L'interpretazione secondo cui le variabili predittive con %IncMSEvalori minori sono più importanti delle variabili predittive con %IncMSEvalori maggiori ? Che ne dici di IncNodePurity?

17 r feature-selection random-forest

Domande taggate «feature-selection»