Statistiche e Big Data

4

Come sapere se i dati sono separabili linearmente?

I dati hanno molte funzionalità (ad es. 100) e il numero di istanze è pari a 100.000. I dati sono scarsi. Voglio adattare i dati usando la regressione logistica o svm. Come faccio a sapere se le funzionalità sono lineari o non lineari in modo da poter usare il trucco …

21 machine-learning logistic svm data-mining

3

Perché nls () mi dà errori di "matrice gradiente singolare alle stime iniziali dei parametri"?

Ho alcuni dati di base sulla riduzione delle emissioni e sul costo per auto: q24 <- read.table(text = "reductions cost.per.car 50 45 55 55 60 62 65 70 70 80 75 90 80 100 85 200 90 375 95 600 ",header = TRUE, sep = "") So che questa è …

21 r self-study exponential starting-values

2

Quali sono i vantaggi dell'utilizzo di ReLU rispetto a softplus come funzioni di attivazione?

Si dice spesso che le unità lineari rettificate (ReLU) hanno sostituito le unità softplus perché sono lineari e più veloci da calcolare. Softplus ha ancora il vantaggio di indurre la scarsità o è limitato alla ReLU? Il motivo per cui lo chiedo è che mi chiedo conseguenze negative della pendenza …

21 machine-learning neural-networks

2

Teoria dei valori estremi - Mostra: da normale a Gumbel

Il massimo di iid Standardnormals converge alla distribuzione standard di Gumbel secondo Extreme Value Theory .X1,…,Xn.∼X1,…,Xn.∼X_1,\dots,X_n. \sim Come possiamo dimostrarlo? abbiamo P(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n Dobbiamo trovare / scegliere an>0,bn∈Ran>0,bn∈Ra_n>0,b_n\in\mathbb{R} sequenze di …

21 probability normal-distribution convergence extreme-value

2

Definizione di probabilità condizionale con condizioni multiple

In particolare, supponiamo di avere due eventi, A e B, e alcuni parametri di distribuzione θθ \theta , e mi piacerebbe guardare .P( A | B , θ )P(UN|B,θ)P(A | B,\theta) Quindi, la definizione più semplice di probabilità condizionale è, dati alcuni eventi A e B, quindi . Quindi, se …

21 probability conditional-probability

4

Come proiettare un nuovo vettore nello spazio PCA?

Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

Avviso "Il modello non è riuscito a convergere" in lmer ()

Con il seguente set di dati, volevo vedere se la risposta (effetto) cambia in relazione a siti, stagione, durata e loro interazioni. Alcuni forum online sulle statistiche mi hanno suggerito di continuare con i modelli lineari a effetti misti, ma il problema è che, poiché i replicati sono randomizzati all'interno …

21 r mixed-model lme4-nlme

5

CDF empirico vs CDF

Sto imparando a conoscere la funzione di distribuzione cumulativa empirica. Ma ancora non capisco Perché si chiama "empirico"? C'è qualche differenza tra Empirical CDF e CDF?

21 distributions terminology cdf ecdf

2

Qual è l'intuizione alla base della definizione di completezza in una statistica come impossibile da cui ricavare uno stimatore imparziale da

Nelle statistiche classiche, esiste una definizione secondo cui una statistica TTT di un insieme di dati y1,…,yny1,…,yny_1, \ldots, y_n è definita come completa per un parametro θθ\theta è impossibile formare uno stimatore imparziale di 000 da esso non banalmente. Cioè, l'unico modo per avere Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0 …

21 mathematical-statistics intuition unbiased-estimator definition complete-statistics

4

Qualcuno può chiarire il concetto di una "somma di variabili casuali"

Nella mia classe di probabilità i termini "somme di variabili casuali" sono costantemente utilizzati. Tuttavia, sono bloccato su cosa significhi esattamente? Stiamo parlando della somma di un mucchio di realizzazioni da una variabile casuale? In tal caso, non si aggiunge a un singolo numero? In che modo una somma di …

21 probability self-study random-variable terminology

3

Qual è la differenza tra le distribuzioni "limitanti" e "stazionarie"?

Sto facendo una domanda sulle catene di Markov e le ultime due parti dicono questo: Questa catena di Markov possiede una distribuzione limitante? Se la tua risposta è "sì", trova la distribuzione limitante. Se la tua risposta è "no", spiega perché. Questa catena di Markov possiede una distribuzione stazionaria? Se …

21 markov-process

7

RMSE vs. coefficiente di determinazione

Sto valutando un modello fisico e vorrei sapere quale dei metodi che dovrei usare qui (tra RMSE e Coefficiente di Determinazione R2) Il problema è il seguente: ho una funzione che genera previsioni per il valore di input x, . Ho anche l'osservazione effettiva per quel valore che chiamo .yxyX¯¯¯¯¯= …

21 error

11

Come determinare facilmente la distribuzione dei risultati per più dadi?

Voglio calcolare la distribuzione di probabilità per il totale di una combinazione di dadi. Ricordo che la probabilità di è il numero di combinazioni che totalizzano quel numero sul numero totale di combinazioni (supponendo che i dadi abbiano una distribuzione uniforme). A cosa servono le formule Il numero di combinazioni …

21 probability dice

2

Come e perché la normalizzazione batch utilizza le medie mobili per tenere traccia dell'accuratezza del modello mentre si allena?

Stavo leggendo il documento di normalizzazione in lotti (BN) (1) e non capivo la necessità di utilizzare le medie mobili per tenere traccia dell'accuratezza del modello e anche se ho accettato che era la cosa giusta da fare, non capisco cosa stanno facendo esattamente. Per quanto ne so (che ho …

21 machine-learning neural-networks deep-learning conv-neural-network batch-normalization

1

Funzione di perdita per i codificatori automatici

Sto sperimentando un po 'di codificatori automatici e con tensorflow ho creato un modello che tenta di ricostruire il set di dati MNIST. La mia rete è molto semplice: X, e1, e2, d1, Y, dove e1 ed e2 sono livelli di codifica, d2 e Y sono livelli di decodifica (e …

21 mse autoencoders tensorflow cross-entropy