Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati

2
KKT contro formulazione non vincolata della regressione del lazo
La regressione penalizzata L1 (aka lazo) è presentata in due formulazioni. Lascia che le due funzioni obiettivo siano Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. Quindi le due diverse formulazioni sono argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 soggetto a ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, e, equivalentemente …

3
Interpretazione dei risultati della spline
Sto cercando di adattare una spline per un GLM usando R. Una volta adattato alla spline, voglio essere in grado di prendere il mio modello risultante e creare un file di modellazione in una cartella di lavoro di Excel. Ad esempio, supponiamo di avere un set di dati in cui …
20 splines 


2
Trasmissione di un modello lineare multivariato come regressione multipla
Riformare un modello di regressione lineare multivariata come regressione lineare multipla è del tutto equivalente? Non mi riferisco semplicemente correre regressioni separate.ttt Ho letto questo in alcuni punti (Bayesian Data Analysis - Gelman et al. E Multivariate Old School - Marden) che un modello lineare multivariato può essere facilmente parametrizzato …



3
Intervallo di confidenza di RMSE
Ho preso un campione di punti dati da una popolazione. Ognuno di questi punti ha un valore vero (noto dalla verità di base) e un valore stimato. Quindi calcolo l'errore per ciascun punto campionato e quindi calcolo l'RMSE del campione.nnn Come posso quindi dedurre una sorta di intervallo di confidenza …


4
Calcola la media della variabile ordinale
Ho letto in diversi punti che il calcolo della media di una variabile ordinale è inappropriato. Sto cercando di ottenere un'intuizione sul perché potrebbe essere inappropriato. Penso che sia perché, in generale, una variabile ordinale non è normalmente distribuita e quindi il calcolo della media darà una rappresentazione imprecisa. Qualcuno …

4
Differenza tra test ANOVA e Kruskal-Wallis
Sto imparando R e ho sperimentato l'analisi della varianza. Ho corso entrambi kruskal.test(depVar ~ indepVar, data=df) e anova(lm(depVar ~ indepVar, data=dF)) C'è una differenza pratica tra questi due test? La mia comprensione è che entrambi valutano l'ipotesi nulla che le popolazioni abbiano la stessa media.

12
Esempi di distribuzioni reali con asimmetria negativa
Ispirato da " esempi reali di distribuzioni comuni ", mi chiedo quali esempi pedagogici le persone usano per dimostrare l'asimmetria negativa? Ci sono molti esempi "canonici" di distribuzioni simmetriche o normali usate nell'insegnamento - anche se quelli come altezza e peso non sopravvivono a un attento esame biologico! La pressione …

8
Le statistiche non sono matematica?
Le statistiche sono matematiche o no? Dato che sono tutti numeri, per lo più insegnati dai dipartimenti di matematica e ottieni crediti matematici per questo, mi chiedo se le persone lo significano solo in modo scherzoso quando lo dicono, come dire che è una parte minore della matematica o semplicemente …


2
Che cos'è l'apprendimento di rinforzo ricorrente
Di recente mi sono imbattuto nella parola "Recurrent Reinforcement Learning". Capisco cos'è la "Rete neuronale ricorrente" e cos'è "Apprendimento per rinforzo", ma non sono riuscito a trovare molte informazioni su cosa sia un "Apprendimento per rinforzo ricorrente". Qualcuno può spiegarmi cos'è un "Apprendimento di rinforzo ricorrente" e qual è la …

2
Come utilizzare le funzioni di validazione incrociata di scikit-learn su classificatori multi-etichetta
Sto testando diversi classificatori su un set di dati in cui ci sono 5 classi e ogni istanza può appartenere a una o più di queste classi, quindi sto usando i classificatori multi-etichetta di scikit-learn, in particolare sklearn.multiclass.OneVsRestClassifier. Ora voglio eseguire la validazione incrociata usando il sklearn.cross_validation.StratifiedKFold. Questo produce il …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.