Statistiche e Big Data

7

Perché le matrici simmetriche positive definite (SPD) sono così importanti?

Conosco la definizione di matrice simmetrica positiva definita (SPD), ma voglio capire di più. Perché sono così importanti, intuitivamente? Ecco quello che so. Cos'altro? Per un dato dato, la matrice di varianza è SPD. La matrice di varianza è una metrica importante, vedi questo eccellente post per una spiegazione intuitiva. …

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

1

Se il LASSO è equivalente alla regressione lineare con un Laplace precedente, come può esserci massa sui set con componenti a zero?

l o s s =∥y- Xβ∥22+ λ ∥ β∥1loss=‖y−Xβ‖22+λ‖β‖1 {\rm loss} = \| y - X \beta \|_2^2 + \lambda \| \beta \|_1 exp( - λ ∥ β∥1)exp⁡(−λ‖β‖1) \exp(-\lambda \| \beta \|_1 ) λλ\lambda Consideriamo che dal punto di vista bayesiano possiamo calcolare la probabilità posteriore che, per esempio, le …

20 lasso laplace-distribution

1

La prova dei coefficienti di riduzione usando la regressione della cresta attraverso la "decomposizione spettrale"

Ho capito come la regressione della cresta restringe geometricamente i coefficienti verso zero. Inoltre so come dimostrarlo nello speciale "caso ortonormale", ma sono confuso su come funziona nel caso generale tramite "decomposizione spettrale".

20 regression multiple-regression regularization ridge-regression svd

5

Perché stiamo usando una formula di deviazione standard distorta e fuorviante per di una distribuzione normale?

Mi è sembrato un po 'scioccante la prima volta che ho fatto una normale simulazione Monte Carlo di distribuzione e ho scoperto che la media di deviazioni standard da campioni, tutti con una dimensione del campione di solo , si è rivelata molto inferiore rispetto alla media di volte, il …

20 normal-distribution standard-deviation expected-value unbiased-estimator umvue

9

Come facciamo a sapere che la probabilità di rotolare 1 e 2 è 1/18?

Fin dalla mia prima classe di probabilità mi sono chiesto quanto segue. Il calcolo delle probabilità viene di solito introdotto attraverso il rapporto tra gli "eventi favoriti" e il totale degli eventi possibili. Nel caso di lanciare due dadi a 6 facce, la quantità di eventi possibili è 363636 , …

20 probability dice

3

Nell'apprendimento automatico, perché vengono usati gli apici al posto degli abbonamenti?

Sto seguendo il corso di Andrew Ng sull'apprendimento automatico attraverso Coursera . Per le equazioni, al posto degli pedici vengono utilizzati apici. Ad esempio, nella seguente equazione viene utilizzato X( i )x(i)x^{(i)} anziché :Xioxix_i J( θ0, θ1) = 12 mΣi = 1m( hθ( x( i )) - y( i ))2J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_0, …

20 machine-learning notation

1

Le spline possono essere utilizzate per la previsione?

Non posso essere specifico sulla natura dei dati in quanto sono proprietari, ma supponiamo di avere dati come questo: ogni mese, alcune persone si iscrivono per un servizio. Quindi, in ogni mese successivo, tali persone possono aggiornare il servizio, interrompere il servizio o essere negato il servizio (ad es. Per …

20 panel-data splines mars

2

A cosa si riferisce la "dimensione del nodo" nella foresta casuale?

Non capisco esattamente cosa si intende per dimensione del nodo. So cos'è un nodo decisionale, ma non quale sia la dimensione del nodo.

20 machine-learning random-forest bagging

1

Qual è l'errore standard della deviazione standard del campione?

Ho letto da lì che l'errore standard della varianza del campione è SEs2=2σ4N−1−−−−−−√SEs2=2σ4N−1SE_{s^2} = \sqrt{\frac{2 \sigma^4}{N-1}} Qual è l'errore standard della deviazione standard del campione? Sarei tentato di indovinare e dire che ma non ne sono sicuro.SEs=SEs2−−−−√SEs=SEs2SE_{s} = \sqrt{SE_{s^2}}

20 sampling standard-deviation standard-error

1

Il paradosso di Stein è ancora valido quando si utilizza la norma invece della norma ?

Il paradosso di Stein mostra che quando tre o più parametri vengono stimati contemporaneamente, esistono in media stimatori più precisi (ovvero con errore quadratico medio inferiore previsto) rispetto a qualsiasi metodo che gestisca i parametri separatamente. Questo è un risultato molto controintuitivo. Lo stesso risultato vale se invece di usare …

20 paradox steins-phenomenon

4

Libri di testo su Matrix Calculus?

Vedi questa domanda su Math SE . Racconto: ho letto Gli elementi dell'apprendimento statistico e sono rimasto frustrato quando stavo cercando di verificare alcuni dei risultati, ad esempio dato quindi RSS ( β) = ( y - X β)T( y - X β) ,RSS(β)=(y-Xβ)T(y-Xβ),\text{RSS}(\beta) = \left(\mathbf{y}-\mathbf{X}\beta\right)^{T}\left(\mathbf{y}-\mathbf{X}\beta\right)\text{,} Sto cercando un libro …

20 references matrix matrix-calculus

1

Esempi di vita reale dei processi decisionali di Markov

Ho visto molti video tutorial e sono uguali. Questo ad esempio: https://www.youtube.com/watch?v=ip4iSMRW5X4 Spiegano stati, azioni e probabilità che vanno bene. La persona lo spiega bene, ma non riesco proprio a capire cosa potrebbe essere utilizzato nella vita reale. Non ho ancora trovato alcun elenco. Quello più comune che vedo sono …

20 markov-process

1

Come configurare la rete neurale per l'output di dati ordinali?

Ho una rete neurale impostata per prevedere qualcosa in cui la variabile di output è ordinale. Descriverò di seguito usando tre possibili uscite A <B <C. È abbastanza ovvio come utilizzare una rete neurale per l'output di dati categorici: l'output è solo un softmax dell'ultimo livello (generalmente completamente collegato), uno …

20 neural-networks ordinal-data softmax

5

Dobbiamo ancora fare la selezione delle funzionalità durante l'utilizzo degli algoritmi di regolarizzazione?

Ho una domanda per quanto riguarda la necessità di utilizzare i metodi di selezione delle caratteristiche (le foreste casuali presentano un valore di importanza o i metodi di selezione delle caratteristiche univariati, ecc.) Prima di eseguire un algoritmo di apprendimento statistico. Sappiamo che per evitare un eccesso di adattamento possiamo …

20 regression machine-learning feature-selection lasso regularization

1

Che cos'è "effetto ferro di cavallo" e / o "effetto arco" nell'analisi PCA / corrispondenza?

Esistono molte tecniche nelle statistiche ecologiche per l'analisi dei dati esplorativi di dati multidimensionali. Queste sono chiamate tecniche di 'ordinazione'. Molti sono uguali o strettamente correlati a tecniche comuni altrove nelle statistiche. Forse l'esempio prototipico sarebbe l'analisi dei componenti principali (PCA). Gli ecologi potrebbero usare la PCA e le relative …

20 pca eda ecology correspondence-analysis