Un esercizio di routine da un libro di testo, un corso o un test utilizzato per una lezione o uno studio autonomo. La politica di questa comunità è di "fornire suggerimenti utili" per tali domande piuttosto che risposte complete.
Qual è la derivata della funzione di attivazione ReLU definita come: R e L U ( x ) = m a x ( 0 , x )ReLU(x)=max(0,x) \mathrm{ReLU}(x) = \mathrm{max}(0, x) Che dire del caso speciale in cui vi è una discontinuità nella funzione in ?x = 0x=0x=0
Domanda Se sono IID, quindi calcola , dove .X1,⋯,Xn∼N(μ,1)X1,⋯,Xn∼N(μ,1)X_1,\cdots,X_n \sim \mathcal{N}(\mu, 1)E(X1∣T)E(X1∣T)\mathbb{E}\left( X_1 \mid T \right)T=∑iXiT=∑iXiT = \sum_i X_i Tentativo : verificare se il seguito è corretto. Diciamo, prendiamo la somma di quelle aspettative condizionali tali che, Significa che ogni poiché X_1, \ ldots, X_n sono IID.∑iE(Xi∣T)=E(∑iXi∣T)=T.∑iE(Xi∣T)=E(∑iXi∣T)=T.\begin{align} \sum_i \mathbb{E}\left( X_i …
(aa sarebbe uno dei tanti, bb no) Ho pensato che sarebbe stato 10! / 8! Ma a quanto pare sto facendo qualcosa di sbagliato. Qualcuno può aiutarmi perché sono sconcertato.
Ho seguito un corso di apprendimento automatico nel mio college. In una delle domande, questa domanda è stata posta. Modello 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon Modello 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon Quale dei modelli di cui sopra si adatterebbe meglio ai …
Sommiamo un flusso di variabili casuali, ; lascia che sia il numero di termini di cui abbiamo bisogno affinché il totale superi uno, ovvero è il numero più piccolo tale cheXi∼iidU(0,1)Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1)YYYYYY X1+X2+⋯+XY>1.X1+X2+⋯+XY>1.X_1 + X_2 + \dots + X_Y > 1. Perché la media di YYY uguale alla costante …
Ho 100 punti dati da un processo casuale. Come farei per posizionare un intervallo di confidenza attorno alla stima di ? La funzione di distribuzione è sconosciuta e distorta positivamente. La mia prima inclinazione sarebbe quella di utilizzare un bootstrap basato sul materiale che ho letto per questa classe, ma …
In primo luogo, suppongo che non tutti i membri attivi di questo interessante sito siano statistici come loro lavoro. Altrimenti la domanda che viene posta come segue non ha alcun senso! Li rispetto ovviamente, ma ho bisogno di una spiegazione un po 'più pratica piuttosto che concettuale. Comincio con un …
In R, il drop1comando genera qualcosa di pulito. Questi due comandi dovrebbero darti un output: example(step)#-> swiss drop1(lm1, test="F") Il mio assomiglia a questo: > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value …
Sembra esserci molta confusione nel confronto tra l'uso di glmnetinside caretper cercare un lambda ottimale e l'utilizzo cv.glmnetper fare lo stesso compito. Sono state poste molte domande, ad esempio: Modello di classificazione train.glmnet vs. cv.glmnet? Qual è il modo corretto di usare glmnet con il cursore? Convalida incrociata di `glmnet` …
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 5 anni fa . Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance …
Sto seguendo il corso di apprendimento automatico di Andrew Ng e non sono riuscito a ottenere la risposta corretta a questa domanda dopo diversi tentativi. Aiutate cortesemente a risolvere questo problema, anche se ho superato il livello. Supponiamo che studenti abbiano frequentato un corso e che il corso abbia avuto …
Sia e quattro variabili casuali tali che , dove sono parametri sconosciuti. Supponi anche che ,Allora quale è vero?Y1,Y2,Y3Y1,Y2,Y3Y_1,Y_2,Y_3Y4Y4Y_4E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y_1)=\theta_1-\theta_3;\space\space E(Y_2)=\theta_1+\theta_2-\theta_3;\space\space E(Y_3)=\theta_1-\theta_3;\space\space E(Y_4)=\theta_1-\theta_2-\theta_3θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3Var(Yi)=σ2Var(Yi)=σ2Var(Y_i)=\sigma^2i=1,2,3,4.i=1,2,3,4.i=1,2,3,4. A. sono stimabili.θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3 B. è stimabile.θ1+θ3θ1+θ3\theta_1+\theta_3 C. è stimabile e è la migliore stima imparziale lineare di .θ1−θ3θ1−θ3\theta_1-\theta_312(Y1+Y3)12(Y1+Y3)\dfrac{1}{2}(Y_1+Y_3)θ1−θ3θ1−θ3\theta_1-\theta_3 D. è stimabile.θ2θ2\theta_2 La …
Mentre leggendo casualmente alcune opere di mercato di massa sulla teoria del caos negli ultimi anni, ho iniziato a chiedermi come possano essere applicati vari aspetti di esso al data mining e ai campi correlati, come reti neurali, riconoscimento dei modelli, gestione dell'incertezza, ecc. Fino ad oggi, I Ho incontrato …
Nella sezione 3.2 di Bishop's Pattern Recognition and Machine Learning , discute della decomposizione di bias-varianza, affermando che per una funzione di perdita quadrata, la perdita attesa può essere scomposta in un termine di bias quadrato (che descrive quanto le previsioni medie sono lontane dal vero modello), un termine di …
Nota: Lo dice Borel-Cantelli Lemma ∑n=1∞P(An)<∞⇒P(limsupAn)=0∑n=1∞P(An)<∞⇒P(limsupAn)=0\sum_{n=1}^\infty P(A_n) \lt \infty \Rightarrow P(\lim\sup A_n)=0 ∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1\sum_{n=1}^\infty P(A_n) =\infty \textrm{ and } A_n\textrm{'s are independent} \Rightarrow P(\lim\sup A_n)=1 Poi, if∑n=1∞P(AnAcn+1)<∞∑n=1∞P(AnAn+1c)<∞\sum_{n=1}^\infty P(A_nA_{n+1}^c )\lt \infty usando Borel-Cantelli Lemma Voglio dimostrarlo in primo luogo, limn→∞P(An)limn→∞P(An)\lim_{n\to \infty}P(A_n) esiste e in …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.