Statistiche e Big Data

28

Dare un senso all'analisi dei componenti principali, autovettori e autovalori

Nell'odierna classe di riconoscimento dei modelli il mio professore ha parlato di PCA, autovettori ed autovalori. Ne ho capito la matematica. Se mi viene chiesto di trovare autovalori ecc. Lo farò correttamente come una macchina. Ma non l'ho capito . Non ne ho avuto lo scopo. Non ne ho avuto …

976 pca intuition eigenvalues canonical-question

11

Come scegliere il numero di strati e nodi nascosti in una rete neurale feedforward?

Esiste un metodo standard e accettato per selezionare il numero di layer e il numero di nodi in ciascun layer in una rete neurale feed-forward? Sono interessato ai modi automatizzati di costruire reti neurali.

542 model-selection neural-networks

10

Qual è la differenza tra "verosimiglianza" e "probabilità"?

La pagina di Wikipedia afferma che la probabilità e la probabilità sono concetti distinti. Nel linguaggio non tecnico, "verosimiglianza" è generalmente sinonimo di "probabilità", ma nell'uso statistico esiste una chiara distinzione in prospettiva: il numero che è la probabilità di alcuni risultati osservati dato un insieme di valori di parametro …

474 probability likelihood

11

Qual è l'intuizione alla base della distribuzione beta?

Disclaimer: non sono uno statistico ma un ingegnere del software. La maggior parte delle mie conoscenze in statistica proviene dall'autoeducazione, quindi ho ancora molte lacune nella comprensione dei concetti che possono sembrare banali per altre persone qui. Quindi sarei molto grato se le risposte includessero termini meno specifici e più …

438 distributions beta-distribution intuition beta-binomial

11

Qual è la differenza tra set di test e set di validazione?

Ho trovato questo confuso quando uso la cassetta degli attrezzi della rete neurale in Matlab. Ha diviso il set di dati non elaborati in tre parti: set di allenamento set di validazione set di test Noto in molti algoritmi di allenamento o di apprendimento, i dati sono spesso divisi in …

431 machine-learning validation

20

Le due culture: statistica vs. apprendimento automatico?

L'anno scorso ho letto un post sul blog di Brendan O'Connor intitolato "Statistiche contro apprendimento automatico, lotta!" che ha discusso alcune delle differenze tra i due campi. Andrew Gelman ha risposto favorevolmente a questo : Simon Blomberg: Dal pacchetto fortune di R: Per parafrasare in modo provocatorio, "l'apprendimento automatico è …

420 machine-learning pac-learning

22

Perché quadrare la differenza invece di prendere il valore assoluto nella deviazione standard?

Nella definizione di deviazione standard, perché dobbiamo quadrare la differenza dalla media per ottenere la media (E) e riportare la radice quadrata alla fine? Non possiamo semplicemente prendere semplicemente il valore assoluto della differenza e ottenere il valore atteso (medio) di quelli, e ciò non mostrerebbe anche la variazione dei …

408 standard-deviation definition

5

Come capire gli svantaggi di K-significa

K-medie è un metodo ampiamente utilizzato nell'analisi dei cluster. Secondo la mia comprensione, questo metodo NON richiede NESSUNA ipotesi, ovvero forniscimi un set di dati e un numero predefinito di cluster, k, e applico solo questo algoritmo che minimizza la somma degli errori al quadrato (SSE), all'interno del cluster al …

365 machine-learning clustering data-mining k-means

25

Python come workbench statistico

Molte persone usano uno strumento principale come Excel o un altro foglio di calcolo, SPSS, Stata o R per le loro esigenze statistiche. Potrebbero rivolgersi a un pacchetto specifico per esigenze molto speciali, ma molte cose possono essere fatte con un semplice foglio di calcolo o un pacchetto di statistiche …

355 r spss stata python

3

Relazione tra SVD e PCA. Come usare SVD per eseguire PCA?

L'analisi dei componenti principali (PCA) viene di solito spiegata tramite una decomposizione degli automi della matrice di covarianza. Tuttavia, può anche essere eseguita mediante decomposizione in valori singolari (SVD) della matrice dati . Come funziona? Qual è la connessione tra questi due approcci? Qual è la relazione tra SVD e …

352 pca dimensionality-reduction matrix svd

30

Qual è il tuo fumetto preferito di “analisi dei dati”?

Questo è uno dei miei preferiti: Una voce per risposta. (Questo è nella vena della domanda Stack Overflow Qual è il tuo cartone animato preferito "programmatore"? ). PS Non collegare a caldo il fumetto senza l'autorizzazione del sito, per favore.

343 humor

15

Ragionamento bayesiano e frequentista in un inglese semplice

Come descriveresti in parole povere le caratteristiche che distinguono il ragionamento bayesiano da quello frequentista?

341 bayesian frequentist

11

Spiegare ai non addetti ai lavori perché il bootstrap funziona

Recentemente ho usato il bootstrap per stimare gli intervalli di confidenza per un progetto. Qualcuno che non conosce molto sulle statistiche recentemente mi ha chiesto di spiegare perché il bootstrap funziona, ovvero perché il ricampionamento dello stesso campione più e più volte dà buoni risultati. Mi sono reso conto che, …

326 bootstrap communication

18

Cosa succede se le variabili esplicative e di risposta sono ordinate in modo indipendente prima della regressione?

Supponiamo di avere un set di dati con punti. Vogliamo eseguire una regressione lineare, ma prima valori e indipendentemente l'uno dall'altro, formando un set di dati . Esiste un'interpretazione significativa della regressione sul nuovo set di dati? Questo ha un nome?n X i Y i ( X i , Y …

302 regression correlation

10

Differenza tra i modelli logit e probit

Qual è la differenza tra il modello Logit e Probit ? Sono più interessato qui a sapere quando usare la regressione logistica e quando usare Probit. Se c'è qualche letteratura che lo definisce usando R , anche questo sarebbe utile.

299 r generalized-linear-model logistic probit link-function