Statistiche e Big Data

4

Errore standard per la media di un campione di variabili casuali binomiali

Supponiamo che stia eseguendo un esperimento che può avere 2 risultati e suppongo che la distribuzione "vera" sottostante dei 2 risultati sia una distribuzione binomiale con parametri nnn e ppp : Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p) . Posso calcolare l'errore standard, SEX=σXn√SEX=σXnSE_X = \frac{\sigma_X}{\sqrt{n}} , dalla forma della varianza di Binomial(n,p)Bionomioun'l(n,p){\rm Binomial}(n, …

44 binomial standard-error

4

Differenza tra foresta casuale e alberi estremamente randomizzati

Ho capito che la foresta casuale e gli alberi estremamente casuali differiscono nel senso che le spaccature degli alberi nella foresta casuale sono deterministiche mentre sono casuali nel caso di alberi estremamente casuali (per essere più precisi, la divisione successiva è la divisione migliore tra le divisioni casuali uniformi nelle …

44 machine-learning correlation references random-forest

5

Implementazioni ottimizzate dell'algoritmo Random Forest

Ho notato che ci sono alcune implementazioni di foreste casuali come ALGLIB, Waffles e alcuni pacchetti R come randomForest. Qualcuno può dirmi se queste librerie sono altamente ottimizzate? Sono sostanzialmente equivalenti alle foreste casuali descritte in dettaglio in The Elements of Statistical Learning o sono stati aggiunti molti trucchi extra? …

43 random-forest algorithms model-evaluation

7

Riferimenti di reti neurali (libri di testo, corsi online) per principianti

Voglio imparare le reti neurali. Sono un linguista computazionale. Conosco approcci statistici di machine learning e posso programmare in Python. Sto cercando di iniziare con i suoi concetti e conoscere uno o due modelli popolari che possono essere utili dal punto di vista della linguistica computazionale. Ho navigato sul web …

43 neural-networks deep-learning references natural-language computer-vision

4

Perché le modifiche del log naturale sono variazioni percentuali? Che dire dei registri che lo rendono così?

Qualcuno può spiegare come le proprietà dei registri lo rendono in modo da poter fare le regressioni lineari in cui i coefficienti sono interpretati come variazioni percentuali?

43 regression logarithm mathematical-statistics

13

L'apprendimento automatico può decodificare gli hash SHA256?

Ho un hash SHA256 di 64 caratteri. Spero di formare un modello in grado di prevedere se il testo in chiaro utilizzato per generare l'hash inizia con un 1 o meno. Indipendentemente se questo è "Possibile", quale algoritmo sarebbe l'approccio migliore? I miei pensieri iniziali: Genera un grande campione di …

43 machine-learning logistic

3

I CDF sono più fondamentali dei PDF?

Il mio prof stat ha sostanzialmente detto, se dato uno dei seguenti tre, puoi trovare gli altri due: Funzione di distribuzione cumulativa Funzione di generazione del momento Densità di probabilità Ma il mio professore di econometria ha affermato che i CDF sono più fondamentali dei PDF perché ci sono esempi …

43 probability pdf cdf mgf

3

Strato di Softmax in una rete neurale

Sto cercando di aggiungere uno strato di softmax a una rete neurale addestrata con backpropagation, quindi sto provando a calcolare il suo gradiente. L'output di softmax è hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} cuijjjè il numero di uscita neurone. Se lo ricavo, allora ottengo ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Simile alla regressione logistica. Tuttavia, questo è sbagliato …

43 neural-networks

5

Cosa significano sostanzialmente "endogeneità" ed "esogeneità"?

Capisco che la definizione base di endogeneità è che non è soddisfatto, ma cosa significa questo in un senso del mondo reale? Ho letto l'articolo di Wikipedia, con l'esempio della domanda e dell'offerta, cercando di dargli un senso, ma non mi è stato di grande aiuto. Ho sentito l'altra descrizione …

43 regression causality instrumental-variables

2

Presupposti casuali della foresta

Sono un po 'nuovo nella foresta casuale quindi sto ancora lottando con alcuni concetti di base. Nella regressione lineare, assumiamo osservazioni indipendenti, varianza costante ... Quali sono le ipotesi / ipotesi di base che facciamo quando usiamo la foresta casuale? Quali sono le differenze chiave tra foresta casuale e baia …

43 regression classification random-forest

6

Funzionalità per la classificazione delle serie storiche

Considero il problema della classificazione (multiclasse) in base a serie temporali di lunghezza variabile , ovvero trovare una funzione tramite una rappresentazione globale della serie temporale da un set di funzioni selezionate di dimensione fissa indipendente da , quindi utilizzare i metodi di classificazione standard su questo set di funzionalità. …

43 time-series classification feature-selection signal-processing

5

Numeri casuali uniformi falsi: distribuiti in modo più uniforme rispetto ai dati uniformi reali

Sto cercando un modo per generare numeri casuali che sembrano distribuiti in modo uniforme - e ogni test mostrerà che sono uniformi - tranne per il fatto che sono distribuiti in modo più uniforme rispetto ai dati uniformi reali . Il problema che ho con i "veri" randoms uniformi è …

43 distributions random-generation uniform quasi-monte-carlo

4

Compendio di tecniche di validazione incrociata

Mi chiedo se qualcuno sia a conoscenza di un compendio di tecniche di convalida incrociata con una discussione sulle differenze tra loro e una guida su quando usarle. Wikipedia ha un elenco delle tecniche più comuni, ma sono curioso di sapere se ci sono altre tecniche e se ci sono …

43 cross-validation

9

Minuscoli set di dati (reali) per fornire esempi in classe?

Quando insegno una lezione di livello introduttivo, gli insegnanti che conosco tendono a inventare alcuni numeri e una storia al fine di esemplificare il metodo che stanno insegnando. Quello che preferirei è raccontare una storia vera con numeri reali. Tuttavia, queste storie devono essere correlate a un set di dati …

43 dataset references teaching

3

Revisione delle statistiche sui documenti

Per alcuni di noi, i documenti di arbitrato fanno parte del lavoro. Per quanto riguarda l'arbitraggio di documenti di metodologia statistica, ritengo che i consigli di altre aree disciplinari siano abbastanza utili, ovvero informatica e matematica . Questa domanda riguarda la revisione di più documenti statistici applicati. Con questo intendo, …

43 journals referee