Ho una domanda per quanto riguarda la necessità di utilizzare i metodi di selezione delle caratteristiche (le foreste casuali presentano un valore di importanza o i metodi di selezione delle caratteristiche univariati, ecc.) Prima di eseguire un algoritmo di apprendimento statistico. Sappiamo che per evitare un eccesso di adattamento possiamo …
Due approcci comuni per la selezione di variabili correlate sono i test di significatività e la validazione incrociata. Quale problema ciascuno cerca di risolvere e quando preferirei l'uno all'altro?
Recentemente ho scoperto che nella letteratura di econometria applicata, quando si affrontano i problemi di selezione delle caratteristiche, non è raro eseguire LASSO seguito da una regressione OLS usando le variabili selezionate. Mi chiedevo come possiamo qualificare la validità di tale procedura. Causerà problemi come le variabili omesse? Qualche prova …
Di seguito è riportato il diagramma di glmnet con alpha predefinito (1, quindi lazo) che utilizza il mtcarsset di dati in R con mpgcome DV e altri come variabili predittive. glmnet(as.matrix(mtcars[-1]), mtcars[,1]) Cosa possiamo concludere da questo diagramma riguardo alle diverse variabili, in particolare am, cyle wt(linee rosse, nere e …
Ho problemi a interpretare i valori z per le variabili categoriali nella regressione logistica. Nell'esempio che segue ho una variabile categoriale con 3 classi e in base al valore z, CLASS2 potrebbe essere rilevante mentre le altre no. Ma ora cosa significa? Che potrei unire le altre classi in una? …
Qual è la definizione di "spazio funzionalità"? Ad esempio, durante la lettura di SVM, ho letto di "mapping allo spazio delle caratteristiche". Durante la lettura di CART, ho letto di "partizionare nello spazio delle funzionalità". Capisco cosa sta succedendo, specialmente per CART, ma penso che ci sia qualche definizione che …
I metodi di selezione delle variabili algoritmiche graduali tendono a selezionare per i modelli che influenzano più o meno ogni stima nei modelli di regressione ( e loro SE, valori p , statistiche F , ecc.) E hanno la probabilità di escludere predittori reali quanto includere falsi predittori secondo una …
Sto cercando di confrontare la complessità computazionale / la velocità di stima di tre gruppi di metodi per la regressione lineare, come distinto in Hastie et al. "Elements of Statistical Learning" (2a edizione), capitolo 3: Selezione del sottoinsieme Metodi di restringimento Metodi che utilizzano direzioni di input derivate (PCR, PLS) …
Dopo aver letto "To Explain or to Predict" (2010) di Galit Shmueli, sono perplesso da un'apparente contraddizione. Ci sono tre premesse, Scelta del modello basata su AIC rispetto a BIC (fine di p. 300 - inizio di p. 301): in poche parole, AIC dovrebbe essere usato per selezionare un modello …
Abbiamo appena trattato l'ipotesi non lineare di Neturalrks neurali di Andrew Ng e abbiamo avuto una domanda a scelta multipla per determinare il numero di funzioni per un'immagine con una risoluzione di 100x100 di intensità in scala di grigi . E la risposta è stata di 50 milioni, 555 x …
Sto usando cv.glmnetper trovare predittori. L'impostazione che utilizzo è la seguente: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Per assicurarsi che i risultati sono riproducibili io set.seed(1). I risultati sono molto variabili. Ho eseguito esattamente lo stesso codice 100 per vedere quanto variabili fossero i risultati. Nelle corse 98/100 era sempre stato …
Devo classificare gli URL in categorie. Supponiamo di avere 15 categorie a cui sto pianificando di azzerare ogni URL. Un classificatore a 15 vie è migliore? Dove ho 15 etichette e generare funzionalità per ciascun punto dati. O costruendo 15 classificatori binari, dì: Film o Non film, e usa i …
Ho creato un classificatore di regressione logistica che è molto preciso sui miei dati. Ora voglio capire meglio perché funziona così bene. In particolare, vorrei classificare quali caratteristiche stanno apportando il contributo maggiore (quali sono le funzioni più importanti) e, idealmente, quantificare quanto ciascuna funzionalità contribuisce alla precisione del modello …
Sto usando Lazo per la selezione delle caratteristiche in un'impostazione dimensionale relativamente bassa (n >> p). Dopo aver montato un modello Lazo, voglio usare le covariate con coefficienti diversi da zero per adattarlo a un modello senza penalità. Lo sto facendo perché voglio stime imparziali che Lasso non può darmi. …
Dopo aver creato un modello di foresta casuale (regressione) in R, la chiamata rf$importancemi fornisce due misure per ciascuna variabile predittore %IncMSEe IncNodePurity. L'interpretazione secondo cui le variabili predittive con %IncMSEvalori minori sono più importanti delle variabili predittive con %IncMSEvalori maggiori ? Che ne dici di IncNodePurity?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.