Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Conosco la definizione di matrice simmetrica positiva definita (SPD), ma voglio capire di più. Perché sono così importanti, intuitivamente? Ecco quello che so. Cos'altro? Per un dato dato, la matrice di varianza è SPD. La matrice di varianza è una metrica importante, vedi questo eccellente post per una spiegazione intuitiva. …
l o s s =∥y- Xβ∥22+ λ ∥ β∥1loss=‖y−Xβ‖22+λ‖β‖1 {\rm loss} = \| y - X \beta \|_2^2 + \lambda \| \beta \|_1 exp( - λ ∥ β∥1)exp(−λ‖β‖1) \exp(-\lambda \| \beta \|_1 ) λλ\lambda Consideriamo che dal punto di vista bayesiano possiamo calcolare la probabilità posteriore che, per esempio, le …
Ho capito come la regressione della cresta restringe geometricamente i coefficienti verso zero. Inoltre so come dimostrarlo nello speciale "caso ortonormale", ma sono confuso su come funziona nel caso generale tramite "decomposizione spettrale".
Mi è sembrato un po 'scioccante la prima volta che ho fatto una normale simulazione Monte Carlo di distribuzione e ho scoperto che la media di deviazioni standard da campioni, tutti con una dimensione del campione di solo , si è rivelata molto inferiore rispetto alla media di volte, il …
Fin dalla mia prima classe di probabilità mi sono chiesto quanto segue. Il calcolo delle probabilità viene di solito introdotto attraverso il rapporto tra gli "eventi favoriti" e il totale degli eventi possibili. Nel caso di lanciare due dadi a 6 facce, la quantità di eventi possibili è 363636 , …
Sto seguendo il corso di Andrew Ng sull'apprendimento automatico attraverso Coursera . Per le equazioni, al posto degli pedici vengono utilizzati apici. Ad esempio, nella seguente equazione viene utilizzato X( i )x(i)x^{(i)} anziché :Xioxix_i J( θ0, θ1) = 12 mΣi = 1m( hθ( x( i )) - y( i ))2J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_0, …
Non posso essere specifico sulla natura dei dati in quanto sono proprietari, ma supponiamo di avere dati come questo: ogni mese, alcune persone si iscrivono per un servizio. Quindi, in ogni mese successivo, tali persone possono aggiornare il servizio, interrompere il servizio o essere negato il servizio (ad es. Per …
Ho letto da lì che l'errore standard della varianza del campione è SEs2=2σ4N−1−−−−−−√SEs2=2σ4N−1SE_{s^2} = \sqrt{\frac{2 \sigma^4}{N-1}} Qual è l'errore standard della deviazione standard del campione? Sarei tentato di indovinare e dire che ma non ne sono sicuro.SEs=SEs2−−−−√SEs=SEs2SE_{s} = \sqrt{SE_{s^2}}
Il paradosso di Stein mostra che quando tre o più parametri vengono stimati contemporaneamente, esistono in media stimatori più precisi (ovvero con errore quadratico medio inferiore previsto) rispetto a qualsiasi metodo che gestisca i parametri separatamente. Questo è un risultato molto controintuitivo. Lo stesso risultato vale se invece di usare …
Vedi questa domanda su Math SE . Racconto: ho letto Gli elementi dell'apprendimento statistico e sono rimasto frustrato quando stavo cercando di verificare alcuni dei risultati, ad esempio dato quindi RSS ( β) = ( y - X β)T( y - X β) ,RSS(β)=(y-Xβ)T(y-Xβ),\text{RSS}(\beta) = \left(\mathbf{y}-\mathbf{X}\beta\right)^{T}\left(\mathbf{y}-\mathbf{X}\beta\right)\text{,} Sto cercando un libro …
Ho visto molti video tutorial e sono uguali. Questo ad esempio: https://www.youtube.com/watch?v=ip4iSMRW5X4 Spiegano stati, azioni e probabilità che vanno bene. La persona lo spiega bene, ma non riesco proprio a capire cosa potrebbe essere utilizzato nella vita reale. Non ho ancora trovato alcun elenco. Quello più comune che vedo sono …
Ho una rete neurale impostata per prevedere qualcosa in cui la variabile di output è ordinale. Descriverò di seguito usando tre possibili uscite A <B <C. È abbastanza ovvio come utilizzare una rete neurale per l'output di dati categorici: l'output è solo un softmax dell'ultimo livello (generalmente completamente collegato), uno …
Ho una domanda per quanto riguarda la necessità di utilizzare i metodi di selezione delle caratteristiche (le foreste casuali presentano un valore di importanza o i metodi di selezione delle caratteristiche univariati, ecc.) Prima di eseguire un algoritmo di apprendimento statistico. Sappiamo che per evitare un eccesso di adattamento possiamo …
Esistono molte tecniche nelle statistiche ecologiche per l'analisi dei dati esplorativi di dati multidimensionali. Queste sono chiamate tecniche di 'ordinazione'. Molti sono uguali o strettamente correlati a tecniche comuni altrove nelle statistiche. Forse l'esempio prototipico sarebbe l'analisi dei componenti principali (PCA). Gli ecologi potrebbero usare la PCA e le relative …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.