Statistiche e Big Data

8

Panoramica dei dati grafici (sommario) funzione in R

Sono sicuro di essermi imbattuto in una funzione come questa in un pacchetto R in precedenza, ma dopo un esteso googling non riesco a trovarla da nessuna parte. La funzione a cui sto pensando ha prodotto un riepilogo grafico per una variabile assegnatagli, producendo un output con alcuni grafici (un …

39 r data-visualization descriptive-statistics eda

1

Perché utilizziamo la divergenza di Kullback-Leibler anziché l'entropia incrociata nella funzione obiettivo t-SNE?

Nella mia mente, la divergenza di KL dalla distribuzione del campione alla distribuzione vera è semplicemente la differenza tra entropia incrociata ed entropia. Perché utilizziamo l'entropia incrociata come funzione di costo in molti modelli di apprendimento automatico, ma utilizziamo la divergenza di Kullback-Leibler in t-sne? C'è qualche differenza nella velocità …

39 kullback-leibler tsne cross-entropy

5

La minimizzazione dell'errore al quadrato equivale alla minimizzazione dell'errore assoluto? Perché l'errore al quadrato è più popolare di quest'ultimo?

Quando eseguiamo la regressione lineare per adattare un gruppo di punti dati , l'approccio classico minimizza l'errore al quadrato. Sono stato a lungo perplesso da una domanda che minimizzando l'errore al quadrato produrrà lo stesso risultato di minimizzare l'errore assoluto ? In caso contrario, perché è meglio ridurre al minimo …

39 least-squares error

5

LDA vs word2vec

Sto cercando di capire cos'è la somiglianza tra Allocazione latente di Dirichlet e word2vec per calcolare la somiglianza delle parole. A quanto ho capito, LDA associa le parole a un vettore di probabilità di argomenti latenti , mentre word2vec le associa a un vettore di numeri reali (relativi alla scomposizione …

39 machine-learning self-study natural-language latent-variable word2vec

4

Replica dell'opzione "robusta" di Stata in R

Ho cercato di replicare i risultati dell'opzione Stata robustin R. Ho usato il rlmcomando dal pacchetto MASS e anche il comando lmrobdal pacchetto "robustbase". In entrambi i casi i risultati sono abbastanza diversi dall'opzione "robusta" di Stata. Qualcuno può suggerire qualcosa in questo contesto? Ecco i risultati che ho ottenuto …

39 r stata robust robust-standard-error

3

È necessaria la standardizzazione prima di adeguare la regressione logistica?

La mia domanda è: dobbiamo standardizzare il set di dati per assicurarci che tutte le variabili abbiano la stessa scala, tra [0,1], prima di adattare la regressione logistica. La formula è: Xio- min ( xio)max ( xio) - min ( xio)Xio-min(Xio)max(Xio)-min(Xio)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Il mio set di dati ha 2 variabili, descrivono …

39 regression logistic standardization

4

Statistiche dell'ordine approssimativo per normali variabili casuali

Esistono formule ben note per le statistiche degli ordini di determinate distribuzioni casuali? Soprattutto le statistiche del primo e dell'ultimo ordine di una normale variabile casuale, ma sarebbe apprezzata anche una risposta più generale. Modificare: per chiarire, sto cercando formule approssimative che possono essere valutate più o meno esplicitamente, non …

39 distributions normal-distribution approximation order-statistics

1

Posizione in R - ordine decrescente [chiuso]

Sto cercando di classificare i dati che, in alcuni casi, il valore più grande ha il rango di 1. Sono relativamente nuovo su R, ma non vedo come posso regolare questa impostazione nella funzione di rango. x <- c(23,45,12,67,34,89) rank(x) genera: [1] 2 4 1 5 3 6 quando voglio …

39 r

5

Valori negativi per AICc (corretto criterio di informazione Akaike)

Ho calcolato AIC e AICc per confrontare due modelli misti lineari generali; Gli AIC sono positivi con il modello 1 con un AIC inferiore rispetto al modello 2. Tuttavia, i valori per AICc sono entrambi negativi (il modello 1 è ancora <modello 2). È valido utilizzare e confrontare valori AICc …

39 mixed-model model-selection aic

1

Qual è la varianza della miscela ponderata di due gaussiani?

Supponiamo che io abbia due distribuzioni normali A e B con mezzi e e varianze e . Voglio prendere una miscela ponderata di questi due distribuzioni utilizzando pesi e dove e . So che la media di questa miscela sarebbe .μAμA\mu_AμBμB\mu_BσAσA\sigma_AσBσB\sigma_Bpppqqq0≤p≤10≤p≤10\le p \le 1q=1−pq=1−pq = 1-pμAB=(p×μA)+(q×μB)μAB=(p×μA)+(q×μB)\mu_{AB} = (p\times\mu_A) + (q\times\mu_B) …

39 normal-distribution mixture

3

Giustificazione empirica dell'unica regola di errore standard quando si utilizza la convalida incrociata

Esistono studi empirici che giustificano l'uso dell'unica regola di errore standard a favore della parsimonia? Ovviamente dipende dal processo di generazione dei dati, ma tutto ciò che analizza un ampio corpus di set di dati sarebbe una lettura molto interessante. La "regola dell'errore standard" viene applicata quando si selezionano i …

39 cross-validation model-selection regularization

5

Qual è la differenza tra una popolazione e un campione?

Qual è la differenza tra una popolazione e un campione? Quali variabili e statistiche comuni vengono utilizzate per ognuna e in che modo si relazionano tra loro?

38 standard-deviation variance sample population

3

Perché gli alberi decisionali non sono costosi dal punto di vista computazionale?

In An Introduction to Statistical Learning with Applications in R , gli autori scrivono che il montaggio di un albero decisionale è molto veloce, ma questo non ha senso per me. L'algoritmo deve passare attraverso ogni funzione e partizionarla in ogni modo possibile per trovare la divisione ottimale. Per le …

38 cart

6

Perché ricevo un albero decisionale con un'accuratezza del 100%?

Sto ottenendo una precisione del 100% per il mio albero decisionale. Che cosa sto facendo di sbagliato? Questo è il mio codice: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation …

38 machine-learning python cart accuracy

2

Quando uno stimatore distorto è preferibile a uno imparziale?

È ovvio molte volte perché si preferisce uno stimatore imparziale. Ma ci sono circostanze in cui potremmo effettivamente preferire uno stimatore distorto rispetto a uno imparziale?

38 bias unbiased-estimator estimators