Statistiche e Big Data normalization

1

Matrici casuali con vincoli sulla lunghezza di riga e colonna

Devo generare matrici casuali non quadrate con righe e colonne C , elementi distribuiti casualmente con media = 0 e vincolati in modo tale che la lunghezza (norma L2) di ogni riga sia 1 e la lunghezza di ogni colonna sia √RRRCCC111 . Equivalentemente, la somma dei valori quadrati è …

25 random-generation normalization markov-process random-matrix

1

Conversione (normalizzazione) di valori di probabilità molto piccoli in probabilità

Sto scrivendo un algoritmo in cui, dato un modello, calcolo le probabilità per un elenco di set di dati e quindi ho bisogno di normalizzare (con probabilità) ciascuna delle probabilità. Quindi qualcosa come [0,00043, 0,00004, 0,00321] potrebbe essere convertito in potrebbe essere come [0,2, 0,03, 0,77]. Il mio problema è …

21 probability normalization likelihood c++ arithmetic

3

Motivo per normalizzare le misure di distanza euclidee nel raggruppamento gerarchico

Apparentemente, nel clustering gerarchico in cui la misura della distanza è la distanza euclidea, i dati devono essere prima normalizzati o standardizzati per impedire alla covariata con la varianza più elevata di guidare il clustering. Perchè è questo? Questo fatto non è desiderabile?

19 clustering normalization

1

I dati devono essere centrati + ridimensionati prima di applicare t-SNE?

Alcune funzionalità dei miei dati hanno valori elevati, mentre altre hanno valori molto più piccoli. È necessario centrare + ridimensionare i dati prima di applicare t-SNE per evitare distorsioni verso valori più grandi? Uso l'implementazione sklearn.manifold.TSNE di Python con la metrica di distanza euclidea predefinita.

18 normalization dimensionality-reduction high-dimensional tsne

3

Che cosa significa "normalizzazione" e come verificare che un campione o una distribuzione siano normalizzati?

Ho una domanda in cui si chiede di verificare se la distribuzione uniforme ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) è normalizzata. Per uno, cosa significa normalizzare qualsiasi distribuzione? E due, come possiamo verificare se una distribuzione è normalizzata o no? Capisco calcolando X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} otteniamodatinormalizzati, ma qui ci viene chiesto di verificare …

18 data-transformation terminology normalization standardization

4

Variabili di "normalizzazione" per SVD / PCA

Supponiamo di avere NNN variabili misurabili, , facciamo un numero di misurazioni e quindi desideriamo eseguire una decomposizione di valore singolare sui risultati per trovare gli assi con la varianza più alta per i punti nello spazio N- dimensionale. ( Nota: supponiamo che i mezzi di a_i siano già stati …

17 pca data-transformation normalization dimensionality-reduction svd

4

Normalizzazione prima della convalida incrociata

La normalizzazione dei dati (per avere media zero e deviazione standard unitaria) prima di eseguire una convalida incrociata ripetuta k ha qualche risultato negativo come un overfitting? Nota: questo è per una situazione in cui #case> #features totali Sto trasformando alcuni dei miei dati utilizzando una trasformazione del registro, quindi …

16 cross-validation normalization

1

Come funziona la normalizzazione quantile?

Negli studi sull'espressione genica usando microarrays, i dati di intensità devono essere normalizzati in modo che le intensità possano essere confrontate tra individui, tra geni. Concettualmente e algoritmicamente, come funziona la "normalizzazione quantile" e come spiegheresti questo a un non statistico?

15 genetics normalization microarray

3

Regolarizzazione e ridimensionamento delle funzionalità nell'apprendimento online?

Diciamo che ho un classificatore di regressione logistica. Nell'apprendimento in batch normale, avrei un termine di regolarizzazione per prevenire un eccesso di adattamento e mantenere i miei pesi piccoli. Inoltre normalizzerei e ridimensionerei le mie funzionalità. In un ambiente di apprendimento online, sto ottenendo un flusso continuo di dati. Faccio …

15 machine-learning normalization regularization online

4

Ridimensionamento delle funzionalità e normalizzazione media

Sto seguendo il corso di apprendimento automatico di Andrew Ng e non sono riuscito a ottenere la risposta corretta a questa domanda dopo diversi tentativi. Aiutate cortesemente a risolvere questo problema, anche se ho superato il livello. Supponiamo che studenti abbiano frequentato un corso e che il corso abbia avuto …

14 machine-learning self-study normalization

2

Posso usare il CLR (trasformazione centrata del rapporto log) per preparare i dati per PCA?

Sto usando una sceneggiatura. È per i record di base. Ho un dataframe che mostra le diverse composizioni elementali nelle colonne su una data profondità (nella prima colonna). Voglio eseguire un PCA con esso e sono confuso riguardo al metodo di standardizzazione che devo scegliere. Qualcuno di voi ha usato …

13 r pca normalization compositional-data

3

Come normalizzare i dati di distribuzione sconosciuta

Sto cercando di trovare la distribuzione caratteristica più appropriata di dati di misure ripetute di un certo tipo. In sostanza, nel mio ramo della geologia, usiamo spesso la datazione radiometrica di minerali da campioni (pezzi di roccia) per scoprire quanto tempo fa è accaduto un evento (la roccia si è …

12 distributions normal-distribution normalization histogram

5

Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?

Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Algoritmo per la normalizzazione in tempo reale dei dati delle serie temporali?

Sto lavorando a un algoritmo che rileva un vettore del punto dati più recente da una serie di flussi di sensori e confronta la distanza euclidea con i vettori precedenti. Il problema è che i diversi flussi di dati provengono da sensori completamente diversi, quindi prendere una semplice distanza euclidea …

12 time-series normalization real-time

6

Una misura robusta (non parametrica) come Coefficiente di variazione - IQR / mediana o alternativa?

Per un dato set di dati, la diffusione viene spesso calcolata come deviazione standard o come IQR (intervallo inter-quartile). Considerando che a standard deviationè normalizzato (punteggi z, ecc.) E quindi può essere utilizzato per confrontare lo spread tra due diverse popolazioni, questo non è il caso dell'IQR poiché i campioni …

12 nonparametric mathematical-statistics standard-deviation descriptive-statistics normalization

Domande taggate «normalization»