Statistiche e Big Data

3

Perché utilizzare le stime Lasso rispetto alle stime OLS sul sottoinsieme di variabili identificato da Lasso?

Per regressione Lazo supponiamo che la soluzione migliore (ad esempio un errore minimo di test) selezioni funzioni, in modo che \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ …

26 regression feature-selection lasso regularization

4

Intuizione dietro la deviazione standard

Sto cercando di ottenere una migliore comprensione intuitiva della deviazione standard. Da quello che ho capito, è rappresentativo della media delle differenze di un insieme di osservazioni in un insieme di dati dalla media di tale insieme di dati. Tuttavia NON è in realtà uguale alle medie delle differenze in …

26 standard-deviation intuition

2

Ho specificato correttamente il mio modello in lmer?

Ho analizzato molti siti di aiuto e sono ancora confuso su come specificare termini nidificati più complicati anche in un modello misto. Sono anche confuso come l'uso di :e /e |nello specificare le interazioni e la nidificazione con fattori casuali utilizzando lmer()nel lme4pacchetto in R. Ai fini di questa domanda, …

26 r mixed-model lme4-nlme

5

Inclusione della variabile dipendente ritardata nella regressione

Sono molto confuso se è legittimo includere una variabile dipendente ritardata in un modello di regressione. Fondamentalmente penso che se questo modello si concentra sulla relazione tra la variazione in Y e altre variabili indipendenti, quindi l'aggiunta di una variabile dipendente ritardata nella parte destra può garantire che il coefficiente …

26 regression lags misspecification

2

Cosa significa effettivamente il valore di logit?

Ho un modello logit che presenta un numero compreso tra 0 e 1 per molti casi, ma come possiamo interpretarlo? Consente di prendere un caso con un logit di 0.20 Possiamo affermare che esiste una probabilità del 20% che un caso appartenga al gruppo B rispetto al gruppo A? è …

26 regression logistic logit

4

Convalida incrociata interna vs esterna e selezione del modello

La mia comprensione è che con la validazione incrociata e la selezione del modello cerchiamo di affrontare due cose: P1 . Stimare la perdita attesa sulla popolazione durante l'allenamento con il nostro campione P2 . Misura e segnala la nostra incertezza di questa stima (varianza, intervalli di confidenza, distorsione, ecc.) …

26 estimation cross-validation references

3

Prerequisiti per il confronto dei modelli AIC

Quali sono esattamente i prerequisiti che devono essere soddisfatti affinché il confronto tra modelli AIC funzioni? Ho appena trovato questa domanda quando ho fatto un confronto in questo modo: > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 In …

26 regression model-selection aic model-comparison nested-models

2

In caret qual è la vera differenza tra cv e repeatcv?

Ciò è simile ai metodi di ricampionamento di Caret , sebbene in realtà non abbia mai risposto a questa parte della domanda in modo concordato. la funzione di treno del guardiano offre cve repeatedcv. Qual è la differenza nel dire di fare: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) vs …

26 r machine-learning caret

6

Esiste un "ciao, mondo" per la grafica statistica?

Nella programmazione informatica, esiste un primo programma classico per l'apprendimento / insegnamento di una nuova lingua o sistema, chiamato "ciao, mondo". http://en.wikipedia.org/wiki/Hello_world_program Esiste una classica prima visualizzazione dei dati per l'utilizzo di un pacchetto grafico? Se è così, che cosa è? E se no, quali sarebbero i buoni candidati?

26 data-visualization

1

PCA, LDA, CCA e PLS

In che modo sono correlati PCA, LDA, CCA e PLS? Sembrano tutti "spettrali" e lineari algebrici e molto ben compresi (diciamo più di 50 anni di teoria costruita attorno a loro). Sono usati per cose molto diverse (PCA per la riduzione della dimensionalità, LDA per la classificazione, PLS per la …

26 pca discriminant-analysis partial-least-squares canonical-correlation

4

Previsione con caratteristiche sia continue che categoriche

Alcune tecniche di modellazione predittiva sono più progettate per gestire predittori continui, mentre altre sono migliori per gestire variabili categoriche o discrete. Naturalmente esistono tecniche per trasformare un tipo in un altro (discretizzazione, variabili fittizie, ecc.). Tuttavia, esistono delle tecniche di modellazione predittiva progettate per gestire entrambi i tipi di …

26 classification predictive-models categorical-data continuous-data discrete-data

9

Cosa fanno gli statistici che non possono essere automatizzati?

Il software alla fine renderà obsoleti gli statistici? Cosa si può fare che non può essere programmato in un computer?

26 machine-learning dataset careers

6

Stima dello stesso modello su più serie temporali

Ho un background da principiante in serie temporali (alcune stime / previsioni ARIMA) e sto affrontando un problema che non capisco perfettamente. Qualsiasi aiuto sarebbe molto apprezzato. Sto analizzando più serie temporali, tutte nello stesso intervallo di tempo e tutte della stessa frequenza, descrivendo tutti un tipo simile di dati. …

26 time-series

1

Equivalenza tra minimi quadrati e MLE nel modello gaussiano

Sono nuovo di Machine Learning e sto cercando di impararlo da solo. Recentemente stavo leggendo alcuni appunti delle lezioni e avevo una domanda di base. La diapositiva 13 afferma che "La stima del minimo quadrato è la stessa della stima della massima verosimiglianza con un modello gaussiano". Sembra che sia …

26 regression bayesian least-squares

4

Numero di caratteristiche vs. numero di osservazioni

Ci sono articoli / libri / idee sulla relazione tra il numero di caratteristiche e il numero di osservazioni che uno deve avere per formare un classificatore "robusto"? Ad esempio, supponiamo che io abbia 1000 funzioni e 10 osservazioni da due classi come set di addestramento e 10 altre osservazioni …

26 machine-learning