Devo generare matrici casuali non quadrate con righe e colonne C , elementi distribuiti casualmente con media = 0 e vincolati in modo tale che la lunghezza (norma L2) di ogni riga sia 1 e la lunghezza di ogni colonna sia √RRRCCC111 . Equivalentemente, la somma dei valori quadrati è …
Sto scrivendo un algoritmo in cui, dato un modello, calcolo le probabilità per un elenco di set di dati e quindi ho bisogno di normalizzare (con probabilità) ciascuna delle probabilità. Quindi qualcosa come [0,00043, 0,00004, 0,00321] potrebbe essere convertito in potrebbe essere come [0,2, 0,03, 0,77]. Il mio problema è …
Apparentemente, nel clustering gerarchico in cui la misura della distanza è la distanza euclidea, i dati devono essere prima normalizzati o standardizzati per impedire alla covariata con la varianza più elevata di guidare il clustering. Perchè è questo? Questo fatto non è desiderabile?
Alcune funzionalità dei miei dati hanno valori elevati, mentre altre hanno valori molto più piccoli. È necessario centrare + ridimensionare i dati prima di applicare t-SNE per evitare distorsioni verso valori più grandi? Uso l'implementazione sklearn.manifold.TSNE di Python con la metrica di distanza euclidea predefinita.
Ho una domanda in cui si chiede di verificare se la distribuzione uniforme ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) è normalizzata. Per uno, cosa significa normalizzare qualsiasi distribuzione? E due, come possiamo verificare se una distribuzione è normalizzata o no? Capisco calcolando X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} otteniamodatinormalizzati, ma qui ci viene chiesto di verificare …
Supponiamo di avere NNN variabili misurabili, , facciamo un numero di misurazioni e quindi desideriamo eseguire una decomposizione di valore singolare sui risultati per trovare gli assi con la varianza più alta per i punti nello spazio N- dimensionale. ( Nota: supponiamo che i mezzi di a_i siano già stati …
La normalizzazione dei dati (per avere media zero e deviazione standard unitaria) prima di eseguire una convalida incrociata ripetuta k ha qualche risultato negativo come un overfitting? Nota: questo è per una situazione in cui #case> #features totali Sto trasformando alcuni dei miei dati utilizzando una trasformazione del registro, quindi …
Negli studi sull'espressione genica usando microarrays, i dati di intensità devono essere normalizzati in modo che le intensità possano essere confrontate tra individui, tra geni. Concettualmente e algoritmicamente, come funziona la "normalizzazione quantile" e come spiegheresti questo a un non statistico?
Diciamo che ho un classificatore di regressione logistica. Nell'apprendimento in batch normale, avrei un termine di regolarizzazione per prevenire un eccesso di adattamento e mantenere i miei pesi piccoli. Inoltre normalizzerei e ridimensionerei le mie funzionalità. In un ambiente di apprendimento online, sto ottenendo un flusso continuo di dati. Faccio …
Sto seguendo il corso di apprendimento automatico di Andrew Ng e non sono riuscito a ottenere la risposta corretta a questa domanda dopo diversi tentativi. Aiutate cortesemente a risolvere questo problema, anche se ho superato il livello. Supponiamo che studenti abbiano frequentato un corso e che il corso abbia avuto …
Sto usando una sceneggiatura. È per i record di base. Ho un dataframe che mostra le diverse composizioni elementali nelle colonne su una data profondità (nella prima colonna). Voglio eseguire un PCA con esso e sono confuso riguardo al metodo di standardizzazione che devo scegliere. Qualcuno di voi ha usato …
Sto cercando di trovare la distribuzione caratteristica più appropriata di dati di misure ripetute di un certo tipo. In sostanza, nel mio ramo della geologia, usiamo spesso la datazione radiometrica di minerali da campioni (pezzi di roccia) per scoprire quanto tempo fa è accaduto un evento (la roccia si è …
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
Sto lavorando a un algoritmo che rileva un vettore del punto dati più recente da una serie di flussi di sensori e confronta la distanza euclidea con i vettori precedenti. Il problema è che i diversi flussi di dati provengono da sensori completamente diversi, quindi prendere una semplice distanza euclidea …
Per un dato set di dati, la diffusione viene spesso calcolata come deviazione standard o come IQR (intervallo inter-quartile). Considerando che a standard deviationè normalizzato (punteggi z, ecc.) E quindi può essere utilizzato per confrontare lo spread tra due diverse popolazioni, questo non è il caso dell'IQR poiché i campioni …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.