Statistiche e Big Data

5

Come gestire i dati gerarchici / nidificati nell'apprendimento automatico

Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

4

Dov'è la teoria dei grafi nei modelli grafici?

Le introduzioni ai modelli grafici li descrivono come "... un matrimonio tra teoria dei grafi e teoria delle probabilità". Ottengo la parte della teoria della probabilità ma ho difficoltà a capire dove si inserisce esattamente la teoria dei grafi. Quali intuizioni della teoria dei grafi hanno contribuito ad approfondire la …

29 graphical-model graph-theory distributions

10

Regressione all'errore medio rispetto al giocatore d'azzardo

Da un lato, ho la regressione alla media e dall'altro ho l' errore del giocatore . L'errore del giocatore d'azzardo è definito da Miller e Sanjurjo (2019) come "la convinzione errata che sequenze casuali abbiano una tendenza sistematica all'inversione, cioè che le serie di risultati simili hanno più probabilità di …

29 regression mean fallacy gambling

3

Che tipo di informazioni sono le informazioni di Fisher?

Supponiamo di avere una variabile casuale X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta) . Se θ0θ0\theta_0 fosse il parametro vero, la funzione di verosimiglianza dovrebbe essere massimizzata e la derivata uguale a zero. Questo è il principio alla base dello stimatore della massima verosimiglianza. A quanto ho capito, le informazioni di Fisher sono definite …

29 bayesian maximum-likelihood likelihood intuition fisher-information

1

Prova che i coefficienti in un modello OLS seguono una distribuzione t con gradi di libertà (nk)

sfondo Supponiamo di avere un modello dei minimi quadrati ordinari in cui abbiamo coefficienti nel nostro modello di regressione, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} dove è un vettore di coefficienti , è la matrice di progettazione definita daββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 …

29 regression linear-model least-squares t-distribution

2

Rifiutare l'ipotesi usando il valore p equivale all'ipotesi non appartenente all'intervallo di confidenza?

Pur derivando formalmente l'intervallo di confidenza di una stima, ho finito con una formula che ricorda molto da vicino il modo in cui viene calcolato il valore .ppp Quindi la domanda: sono formalmente equivalenti? Vale a dire che rifiuta un'ipotesi con un valore critico equivalente a non appartenente all'intervallo di …

29 hypothesis-testing confidence-interval p-value

5

Perché il mio intervallo di bootstrap ha una copertura terribile?

Volevo fare una dimostrazione di classe in cui ho confrontato un intervallo t con un intervallo bootstrap e ho calcolato la probabilità di copertura di entrambi. Volevo che i dati provenissero da una distribuzione distorta, quindi ho scelto di generare i dati come exp(rnorm(10, 0, 2)) + 1, un campione …

29 bootstrap diagnostic

2

In che misura il bootstrap si avvicina alla distribuzione campionaria di uno stimatore?

Avendo recentemente studiato il bootstrap, mi è venuta in mente una domanda concettuale che ancora mi confonde: Hai una popolazione e vuoi conoscere un attributo della popolazione, ad esempio , dove uso per rappresentare la popolazione. Questo potrebbe essere la popolazione media per esempio. Di solito non è possibile ottenere …

29 bootstrap simulation resampling

2

Distribuzioni gamma vs. lognormali

Ho una distribuzione osservata sperimentalmente che sembra molto simile a una distribuzione gamma o lognormale. Ho letto che la distribuzione lognormale è la distribuzione di probabilità entropia massima per una variabile casuale per la quale sono fissati la media e la varianza di . La distribuzione gamma ha proprietà simili?XXXln( …

29 pdf gamma-distribution lognormal

1

Selezione e modello delle caratteristiche con glmnet sui dati di metilazione (p >> N)

Vorrei usare GLM e Elastic Net per selezionare quelle caratteristiche rilevanti + costruire un modello di regressione lineare (cioè sia la previsione che la comprensione, quindi sarebbe meglio rimanere con relativamente pochi parametri). L'output è continuo. Sono geni per casi. Ho letto del pacchetto, ma non sono sicuro al 100% …

29 r regularization glmnet elastic-net underdetermined

1

Come vengono calcolati gli errori standard per i valori adattati da una regressione logistica?

Quando si prevede un valore adattato da un modello di regressione logistica, come vengono calcolati gli errori standard? Intendo per i valori adattati , non per i coefficienti (che coinvolgono la matrice di informazioni dei pescatori). Ho solo scoperto come ottenere i numeri R(ad es. Qui su r-help o qui …

29 r regression logistic mathematical-statistics references

2

È essenziale eseguire la normalizzazione per SVM e Random Forest?

Ogni dimensione delle mie caratteristiche ha una gamma di valori diversa. Voglio sapere se è essenziale normalizzare questo set di dati.

29 machine-learning svm random-forest normalization

3

ANOVA può essere significativo quando nessuno dei t-test a coppie è?

È possibile per ANOVA a senso unico (con gruppi o "livelli") segnalare una differenza significativa quando nessuno dei test T a coppie fa?N ( N - 1 ) / 2N> 2N>2N>2N( N- 1 ) / 2N(N-1)/2N(N-1)/2 In questa risposta @whuber ha scritto: È noto che un test ANOVA F globale …

29 statistical-significance anova t-test post-hoc

4

Area sotto curva di ROC rispetto a precisione complessiva

Sono un po 'confuso riguardo l'Area Under Curve (AUC) di ROC e l'accuratezza complessiva. L'AUC sarà proporzionale alla precisione complessiva? In altre parole, quando avremo una maggiore precisione complessiva avremo sicuramente una AUC più grande? O sono per definizione correlati positivamente? Se sono correlati positivamente, perché dovremmo preoccuparci di riportarli …

29 classification roc

3

Differenza tra SVM e percettrone

Sono un po 'confuso con la differenza tra un SVM e un percettrone. Vorrei provare a sintetizzare la mia comprensione qui, e non esitate a correggere dove sbaglio e compilare ciò che ho perso. Il Perceptron non tenta di ottimizzare la "distanza" di separazione. Finché trova un iperpiano che separa …

29 machine-learning svm kernel-trick