Statistiche e Big Data

6

Si dovrebbero rimuovere variabili altamente correlate prima di fare PCA?

Sto leggendo un articolo in cui l'autore scarta diverse variabili a causa dell'alta correlazione con altre variabili prima di fare PCA. Il numero totale di variabili è di circa 20. Questo dà qualche vantaggio? Mi sembra un sovraccarico poiché PCA dovrebbe gestirlo automaticamente.

111 correlation pca

4

Valutazione della distribuzione approssimativa dei dati basata su un istogramma

Supponiamo che io voglia vedere se i miei dati sono esponenziali in base a un istogramma (cioè inclinato a destra). A seconda di come raggruppo o bin i dati, posso ottenere istogrammi selvaggiamente diversi. Una serie di istogrammi farà sembrare che i dati siano esponenziali. Un altro set farà sembrare …

111 distributions data-visualization histogram binning

2

Gradient Boosting Tree vs Random Forest

Il potenziamento dell'albero a gradiente, come proposto da Friedman, utilizza gli alberi decisionali come apprendenti di base. Mi chiedo se dovremmo rendere l'albero delle decisioni di base il più complesso possibile (completamente sviluppato) o più semplice? C'è qualche spiegazione per la scelta? Random Forest è un altro metodo di ensemble …

110 machine-learning random-forest cart boosting ensemble

3

Cosa succede se i residui sono normalmente distribuiti, ma y non lo è?

Ho una domanda strana. Supponiamo di avere un piccolo campione in cui la variabile dipendente che si intende analizzare con un semplice modello lineare è fortemente distorta. Quindi supponi che non sia normalmente distribuito, perché ciò si tradurrebbe in normalmente distribuito . Ma quando si calcola il diagramma QQ-Normale ci …

110 regression residuals error normality-assumption

8

Rilevamento di un determinato viso in un database di immagini facciali

Sto lavorando a un piccolo progetto che coinvolge i volti degli utenti di Twitter tramite le loro foto del profilo. Un problema che ho riscontrato è che dopo aver filtrato tutte le immagini tranne quelle che sono chiare foto di ritratti, una piccola ma significativa percentuale di utenti di Twitter …

110 machine-learning clustering image-processing

6

Come spiegheresti la differenza tra correlazione e covarianza?

In seguito a questa domanda, come spiegheresti la covarianza a qualcuno che capisce solo la media? , che affronta il problema di spiegare la covarianza a un laico, mi è venuta in mente una domanda simile. Come si potrebbe spiegare a un neofita statistico la differenza tra covarianza e correlazione …

109 correlation covariance

10

Perché la distribuzione di Cauchy non ha alcun significato?

Dalla funzione di densità di distribuzione potremmo identificare una media (= 0) per la distribuzione di Cauchy proprio come mostra il grafico sotto. Ma perché diciamo che la distribuzione di Cauchy non ha significato?

109 distributions mathematical-statistics mean pdf cauchy

5

Come funziona una Support Vector Machine (SVM)?

Come funziona una macchina Support Vector (SVM) di lavoro, e ciò che lo differenzia dagli altri classificatori lineari, come ad esempio il Perceptron Lineare , Lineare Analisi Discriminante , o regressione logistica ? * (* Sto pensando in termini di motivazioni alla base dell'algoritmo, strategie di ottimizzazione, capacità di generalizzazione …

108 machine-learning classification svm statistical-learning

15

Risultati elettorali USA 2016: cosa è andato storto nei modelli di previsione?

Prima era la Brexit , ora le elezioni statunitensi. Molte previsioni del modello sono state respinte con ampio margine e ci sono lezioni da imparare qui? Già alle 16:00 PST di ieri, i mercati delle scommesse favorivano ancora Hillary 4 a 1. Immagino che i mercati delle scommesse, con denaro …

108 predictive-models ensemble confounding

6

Esiste un'interpretazione intuitiva di per una matrice di dati ?

Per una data matrice di dati (con variabili nelle colonne e punti di dati nelle righe), sembra che svolga un ruolo importante nelle statistiche. Ad esempio, è una parte importante della soluzione analitica dei minimi quadrati ordinari. Oppure, per PCA, i suoi autovettori sono i componenti principali dei dati.A T …

107 matrix covariance-matrix correlation-matrix

5

Quali competenze sono necessarie per eseguire analisi statistiche su larga scala?

Molti lavori statistici richiedono esperienza con dati su larga scala. Quali sono le competenze statistiche e computazionali che sarebbero necessarie per lavorare con grandi set di dati. Ad esempio, che ne dici di costruire modelli di regressione dati un set di dati con 10 milioni di campioni?

107 regression machine-learning multivariate-analysis large-data

4

Qual è la regola .632+ nel bootstrap?

Qui @gung fa riferimento alla regola .632+. Una rapida ricerca su Google non fornisce una risposta di facile comprensione su cosa significhi questa regola e per quale scopo venga utilizzata. Qualcuno potrebbe chiarire la regola .632+?

107 bootstrap

21

Qual è un esempio reale di "overfitting"?

In un certo senso capisco cosa significhi "overfitting", ma ho bisogno di aiuto su come elaborare un esempio del mondo reale che si applica al overfitting.

107 overfitting

7

Perché l'accuratezza non è la misura migliore per valutare i modelli di classificazione?

Questa è una domanda generale che è stata posta indirettamente più volte qui, ma manca di un'unica risposta autorevole. Sarebbe bello avere una risposta dettagliata a questo per il riferimento. La precisione , la proporzione di classificazioni corrette tra tutte le classificazioni, è una misura molto semplice e molto "intuitiva", …

107 machine-learning classification accuracy model-evaluation scoring-rules

6

Cosa significa convoluzione 1x1 in una rete neurale?

Attualmente sto facendo il tutorial di apprendimento profondo Udacity. Nella lezione 3, parlano di una convoluzione 1x1. Questa convoluzione 1x1 viene utilizzata in Google Inception Module. Ho difficoltà a capire cos'è una convoluzione 1x1. Ho visto anche questo post di Yann Lecun. Qualcuno potrebbe gentilmente spiegarmi questo?

106 neural-networks deep-learning convolution conv-neural-network