Statistiche e Big Data algorithms

2

Perché runif non genera lo stesso risultato ogni volta?

Perché i generatori di numeri casuali come runif()in R non generano sempre lo stesso risultato? Per esempio: X <- runif(100) X sta generando output diversi ogni volta. Qual è il motivo per generare output diversi ogni volta? Quali funzionalità ha in background per farlo?

11 r algorithms random-generation uniform

2

In cosa consiste l'apprendimento automatico nella pratica reale?

Sono un nuovo arrivato nel machine learning (anche alcune statistiche), sto imparando le conoscenze (algoritmi di apprendimento supervisionato / non supervisionato, metodi di ottimizzazione pertinenti, regolarizzazioni, alcune filosofie (come il trade-off di bias-varianza?)) Per un po '. So che senza alcuna pratica reale, non otterrei una profonda comprensione di queste …

11 machine-learning algorithms

1

Chiarimento sulla massimizzazione delle aspettative

Ho trovato un tutorial molto utile per quanto riguarda l' algoritmo EM . L'esempio e l'immagine del tutorial sono semplicemente geniali. Domanda correlata sul calcolo delle probabilità come funziona la massimizzazione delle aspettative? Ho un'altra domanda su come collegare la teoria descritta nell'esercitazione all'esempio. gtgtg_tlogP( x ; Θ )log⁡P(x;Θ)\log P(x;\Theta)gt( …

11 machine-learning clustering algorithms natural-language

4

Come posso (numericamente) approssimare i valori per una distribuzione beta con alpha e beta di grandi dimensioni

Esiste un modo numericamente stabile per calcolare i valori di una distribuzione beta per numeri interi grandi alpha, beta (ad esempio alpha, beta> 1000000)? In realtà, ho solo bisogno di un intervallo di confidenza del 99% attorno alla modalità, se ciò in qualche modo semplifica il problema. Aggiungi : mi …

11 confidence-interval algorithms beta-distribution

3

Criterio di arresto per Nelder Mead

Sto cercando di implementare l'algoritmo Nelder-Mead per ottimizzare una funzione. La pagina di Wikipedia su Nelder-Mead è sorprendentemente chiara sull'intero algoritmo, ad eccezione del suo criterio di arresto. Lì dice tristemente: Verificare la convergenza [chiarimento necessario] . Ho provato e testato un paio di criteri me stesso: Fermati se dove …

11 optimization algorithms

2

Perché Adaboost con gli alberi decisionali?

Ho letto un po 'su come potenziare gli algoritmi per le attività di classificazione e Adaboost in particolare. Capisco che lo scopo di Adaboost è quello di prendere diversi "discenti deboli" e, attraverso una serie di iterazioni sui dati di allenamento, spingere i classificatori a imparare a prevedere le classi …

11 machine-learning classification algorithms boosting

2

Calcolo della dimensione VC di una rete neurale

Se ho una topologia fissa non ricorrente (DAG) (set fisso di nodi e bordi, ma l'algoritmo di apprendimento può variare il peso sui bordi) dei neuroni sigmoidi con neuroni di input che possono prendere solo stringhe in come input e porta a un output (che genera un valore reale che …

11 machine-learning neural-networks algorithms vc-dimension

4

Come testare un'implementazione di k-mean?

Disclaimer: ho pubblicato questa domanda su StackOverflow, ma ho pensato che forse fosse più adatto a questa piattaforma. Come testate la vostra implementazione k-mean per set di dati multidimensionali? Stavo pensando di eseguire un'implementazione già esistente (cioè Matlab) sui dati e confrontare i risultati con il mio algoritmo. Ma ciò …

11 clustering algorithms

1

La PCA su larga scala è persino possibile?

Il modo classico di analisi dei componenti principali (PCA) è quello di farlo su una matrice di dati di input le cui colonne hanno media zero (quindi il PCA può "massimizzare la varianza"). Ciò può essere ottenuto facilmente centrando le colonne. Tuttavia, quando la matrice di input è sparsa, la …

10 pca algorithms dimensionality-reduction large-data sparse

2

Rilevazione di anomalie: quale algoritmo usare?

Contesto: sto sviluppando un sistema che analizza i dati clinici per filtrare i dati non plausibili che potrebbero essere errori di battitura. Quello che ho fatto finora: Per quantificare la plausibilità, il mio tentativo finora è stato di normalizzare i dati e quindi calcolare un valore di plausibilità per il …

10 machine-learning multivariate-analysis feature-selection algorithms outliers

3

Qual è il modo più efficiente di addestrare i dati usando meno memoria?

Questi sono i miei dati di allenamento: 200.000 esempi x 10.000 funzioni. Quindi la mia matrice di dati di allenamento è - 200.000 x 10.000. Sono riuscito a salvarlo in un file flat senza problemi di memoria salvando ogni set di dati uno per uno (un esempio dopo l'altro) mentre …

10 machine-learning dataset algorithms python

4

Da un indirizzo e-mail a un numero quasi casuale [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Il mio obiettivo: Mi piacerebbe avere una funzione che accetta un indirizzo e-mail e genera un numero …

10 algorithms random-generation

3

Algoritmo di apprendimento automatico per il posizionamento

Ho un insieme di elementi che posso descrivere in base a caratteristiche. Così:XXXnnn Xio: { cI 1, cio 2, ... , cio n} ∣ xio∈ XXio:{cio1,cio2,...,cion}|Xio∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X dove è la valutazione (numerica) per l'elemento secondo le caratteristiche . Quindi i miei elementi possono …

10 machine-learning algorithms ranking feature-construction

1

costo di campionamento di

Mi sono imbattuto nel seguente problema di simulazione: dato un set di numeri reali noti, una distribuzione su è definita da dove indica la parte positiva di . Mentre riesco a pensare a un campionatore Metropolis-Hastings che prende di mira questa distribuzione, mi chiedo se esiste un campionatore diretto efficiente, …

9 simulation algorithms random-generation computational-statistics metropolis-hastings

2

Come campionare una distribuzione multinomiale troncata?

Ho bisogno di un algoritmo per campionare una distribuzione multinomiale troncata. Questo è, X⃗ ∼ 1ZpX11... pXKKX1! ... xK!x→∼1Zp1x1…pkxkx1!…xk!\vec x \sim \frac{1}{Z} \frac{p_1^{x_1} \dots p_k^{x_k}}{x_1!\dots x_k!} dove è una costante di normalizzazione, ha componenti positivi e . Considero solo i valori di nell'intervallo .→ x k ∑ x i = …

9 algorithms multinomial random-generation

Domande taggate «algorithms»