Statistiche e Big Data feature-selection

4

In che modo SVM può "trovare" uno spazio infinito di funzioni in cui la separazione lineare è sempre possibile?

Qual è l'intuizione alla base del fatto che un SVM con un kernel gaussiano ha uno spazio di funzionalità dimensionale infinito?

36 svm feature-selection kernel-trick

7

Scelta delle variabili da includere in un modello di regressione lineare multipla

Attualmente sto lavorando per costruire un modello usando una regressione lineare multipla. Dopo aver armeggiato con il mio modello, non sono sicuro di come determinare meglio quali variabili conservare e quali rimuovere. Il mio modello è iniziato con 10 predittori per il DV. Quando si utilizzano tutti e 10 i …

35 regression multiple-regression feature-selection modeling model-selection

3

Importanza variabile da SVM

Come ottenere un'importanza variabile (attributo) usando SVM?

32 machine-learning feature-selection svm

5

Rilevamento di predittori significativi tra molte variabili indipendenti

In un set di dati di due popolazioni non sovrapposte (pazienti e sani, totale ), vorrei trovare (su variabili indipendenti) predittori significativi per una variabile dipendente continua. La correlazione tra predittori è presente. Sono interessato a scoprire se qualcuno dei predittori è correlato alla variabile dipendente "in realtà" (piuttosto che …

31 regression pca feature-selection stepwise-regression underdetermined

3

Perché è necessaria la selezione delle variabili?

Le comuni procedure di selezione delle variabili basate su dati (ad esempio, avanti, indietro, per gradi, tutti i sottoinsiemi) tendono a produrre modelli con proprietà indesiderate, tra cui: Coefficienti distorti da zero. Errori standard troppo piccoli e intervalli di confidenza troppo stretti. Testare statistiche e valori p che non hanno …

31 modeling feature-selection

6

Procedura di selezione variabile per la classificazione binaria

Quali sono le selezioni variabili / caratteristiche che preferisci per la classificazione binaria quando ci sono molte più variabili / caratteristiche rispetto alle osservazioni nel set di apprendimento? Lo scopo qui è discutere qual è la procedura di selezione delle caratteristiche che riduce al meglio l'errore di classificazione. Possiamo correggere …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

3

Come gestire la multicollinearità quando si esegue la selezione delle variabili?

Ho un set di dati con 9 variabili indipendenti continue. Sto cercando di scegliere tra queste variabili per adattarsi a un modello per una sola percentuale variabile (dipendente), Score. Sfortunatamente, so che ci sarà una seria collinearità tra alcune delle variabili. Ho provato a usare la stepAIC()funzione in R per …

28 r multiple-regression feature-selection multicollinearity

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

5

Cosa può indurre PCA a peggiorare i risultati di un classificatore?

Ho un classificatore su cui sto eseguendo la convalida incrociata, insieme a un centinaio di funzionalità su cui sto facendo la selezione in avanti per trovare combinazioni ottimali di funzionalità. Inoltre paragone questo con l'esecuzione degli stessi esperimenti con PCA, in cui prendo le potenziali funzionalità, applico SVD, trasformo i …

27 classification pca feature-selection

3

Perché utilizzare le stime Lasso rispetto alle stime OLS sul sottoinsieme di variabili identificato da Lasso?

Per regressione Lazo supponiamo che la soluzione migliore (ad esempio un errore minimo di test) selezioni funzioni, in modo che \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ …

26 regression feature-selection lasso regularization

6

Precisione del test superiore all'allenamento. Come interpretare?

Ho un set di dati contenente al massimo 150 esempi (suddivisi in training e test), con molte funzionalità (superiore a 1000). Devo confrontare i classificatori e i metodi di selezione delle caratteristiche che funzionano bene sui dati. Quindi, sto usando tre metodi di classificazione (J48, NB, SVM) e 2 metodi …

23 classification feature-selection

3

La stabilità del modello quando si tratta di grandi

Intro: Ho un set di dati con un classico "grande problema p, piccolo problema". Il numero di campioni disponibili n = 150 mentre il numero di possibili predittori p = 400. Il risultato è una variabile continua. Voglio trovare i descrittori più "importanti", cioè quelli che sono i migliori candidati …

22 regression cross-validation model-selection feature-selection elastic-net

2

Il miglior approccio per la selezione del modello bayesiano o cross-validation?

Quando provo a scegliere tra vari modelli o il numero di funzioni da includere, diciamo che posso pensare a due approcci. Dividi i dati in training e set di test. Meglio ancora, usa bootstrap o k-fold cross-validation. Allenarsi sul set di allenamento ogni volta e calcolare l'errore sul set di …

22 bayesian model-selection cross-validation feature-selection

2

Qual è la proprietà oracolo di uno stimatore?

Qual è la proprietà oracolo di uno stimatore? A quali obiettivi di modellazione è rilevante la proprietà dell'oracolo (predittiva, esplicativa, ...)? Entrambe le spiegazioni teoricamente rigorose e (soprattutto) intuitive sono benvenute.

22 feature-selection model-selection estimators oracle

1

Perché LASSO non trova la mia coppia predittiva perfetta ad alta dimensionalità?

Sto eseguendo un piccolo esperimento con la regressione di LASSO in R per testare se è in grado di trovare una coppia predittiva perfetta. La coppia è definita in questo modo: f1 + f2 = risultato Il risultato qui è un vettore predeterminato chiamato 'età'. F1 e f2 vengono creati …

20 r regression feature-selection lasso high-dimensional

Domande taggate «feature-selection»