Statistiche e Big Data

2

KKT contro formulazione non vincolata della regressione del lazo

La regressione penalizzata L1 (aka lazo) è presentata in due formulazioni. Lascia che le due funzioni obiettivo siano Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. Quindi le due diverse formulazioni sono argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 soggetto a ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, e, equivalentemente …

20 regression lasso penalized

3

Interpretazione dei risultati della spline

Sto cercando di adattare una spline per un GLM usando R. Una volta adattato alla spline, voglio essere in grado di prendere il mio modello risultante e creare un file di modellazione in una cartella di lavoro di Excel. Ad esempio, supponiamo di avere un set di dati in cui …

20 splines

1

Qual è l'equivalente non parametrico di un ANOVA a due vie che può includere interazioni?

Ciao, sto cercando di trovare l'equivalente non parametrico di un ANOVA a due vie (design 3x4) in grado di includere interazioni. Dalla mia lettura a Zar 1984 "Analisi biostatistica" questo è possibile utilizzando un metodo presentato in Scheirer, Ray e Hare (1976), tuttavia, secondo altri post online, è stato dedotto …

20 r anova nonparametric stata interaction

2

Trasmissione di un modello lineare multivariato come regressione multipla

Riformare un modello di regressione lineare multivariata come regressione lineare multipla è del tutto equivalente? Non mi riferisco semplicemente correre regressioni separate.ttt Ho letto questo in alcuni punti (Bayesian Data Analysis - Gelman et al. E Multivariate Old School - Marden) che un modello lineare multivariato può essere facilmente parametrizzato …

20 regression multiple-regression linear-model multivariate-regression

2

Come derivare l'errore standard del coefficiente di regressione lineare

Per questo modello di regressione lineare univariata dato il set di dati , le stime dei coefficienti sono Ecco la mia domanda, secondo la libro e Wikipedia , l'errore standard di è Come e perché? D = { ( x 1 , y 1 ) , . . . , …

20 standard-error inference

2

Esiste un'applicazione statistica che richiede una forte coerenza?

Mi chiedevo se qualcuno lo sapesse o se esiste un'applicazione nelle statistiche in cui è richiesta una forte coerenza di uno stimatore invece di una consistenza debole. Cioè, una coerenza forte è essenziale per l'applicazione e l'applicazione non funzionerebbe con una coerenza debole.

20 hypothesis-testing theory asymptotics estimators consistency

3

Intervallo di confidenza di RMSE

Ho preso un campione di punti dati da una popolazione. Ognuno di questi punti ha un valore vero (noto dalla verità di base) e un valore stimato. Quindi calcolo l'errore per ciascun punto campionato e quindi calcolo l'RMSE del campione.nnn Come posso quindi dedurre una sorta di intervallo di confidenza …

20 confidence-interval

3

Apprendimento automatico per prevedere le probabilità di classe

Sto cercando classificatori che generino probabilità che gli esempi appartengano a una delle due classi. Conosco la regressione logistica e l'ingenua Bayes, ma puoi parlarmi di altri che lavorano in modo simile? Cioè, i classificatori che prevedono non le classi a cui appartengono gli esempi, ma la probabilità che gli …

20 machine-learning probability logistic classification naive-bayes

4

Calcola la media della variabile ordinale

Ho letto in diversi punti che il calcolo della media di una variabile ordinale è inappropriato. Sto cercando di ottenere un'intuizione sul perché potrebbe essere inappropriato. Penso che sia perché, in generale, una variabile ordinale non è normalmente distribuita e quindi il calcolo della media darà una rappresentazione imprecisa. Qualcuno …

20 mean ordinal-data

4

Differenza tra test ANOVA e Kruskal-Wallis

Sto imparando R e ho sperimentato l'analisi della varianza. Ho corso entrambi kruskal.test(depVar ~ indepVar, data=df) e anova(lm(depVar ~ indepVar, data=dF)) C'è una differenza pratica tra questi due test? La mia comprensione è che entrambi valutano l'ipotesi nulla che le popolazioni abbiano la stessa media.

20 r anova kruskal-wallis

12

Esempi di distribuzioni reali con asimmetria negativa

Ispirato da " esempi reali di distribuzioni comuni ", mi chiedo quali esempi pedagogici le persone usano per dimostrare l'asimmetria negativa? Ci sono molti esempi "canonici" di distribuzioni simmetriche o normali usate nell'insegnamento - anche se quelli come altezza e peso non sopravvivono a un attento esame biologico! La pressione …

20 distributions skewness teaching

8

Le statistiche non sono matematica?

Le statistiche sono matematiche o no? Dato che sono tutti numeri, per lo più insegnati dai dipartimenti di matematica e ottieni crediti matematici per questo, mi chiedo se le persone lo significano solo in modo scherzoso quando lo dicono, come dire che è una parte minore della matematica o semplicemente …

20 mathematical-statistics philosophical

2

Qual è il presupposto molteplice dell'apprendimento semi-supervisionato?

Sto cercando di capire cosa significhi l'assunzione multiforme nell'apprendimento semi-supervisionato. Qualcuno può spiegare in modo semplice? Non riesco a capire l'intuizione. Dice che i tuoi dati si trovano su una varietà a bassa dimensione incorporata in uno spazio di dimensione superiore. Non ho capito cosa significhi.

20 machine-learning unsupervised-learning supervised-learning manifold-learning

2

Che cos'è l'apprendimento di rinforzo ricorrente

Di recente mi sono imbattuto nella parola "Recurrent Reinforcement Learning". Capisco cos'è la "Rete neuronale ricorrente" e cos'è "Apprendimento per rinforzo", ma non sono riuscito a trovare molte informazioni su cosa sia un "Apprendimento per rinforzo ricorrente". Qualcuno può spiegarmi cos'è un "Apprendimento di rinforzo ricorrente" e qual è la …

20 machine-learning reinforcement-learning

2

Come utilizzare le funzioni di validazione incrociata di scikit-learn su classificatori multi-etichetta

Sto testando diversi classificatori su un set di dati in cui ci sono 5 classi e ogni istanza può appartenere a una o più di queste classi, quindi sto usando i classificatori multi-etichetta di scikit-learn, in particolare sklearn.multiclass.OneVsRestClassifier. Ora voglio eseguire la validazione incrociata usando il sklearn.cross_validation.StratifiedKFold. Questo produce il …

20 cross-validation python multi-class scikit-learn multilabel