Statistiche e Big Data

3

(Perché) La SOM in stile Kohonen è caduta in disgrazia?

Per quanto ne so, i SOM in stile Kohonen hanno avuto un picco nel 2005 e non hanno visto tanto favore di recente. Non ho trovato alcun documento che affermi che i SOM sono stati inclusi in un altro metodo o si sono dimostrati equivalenti a qualcos'altro (a dimensioni superiori, …

33 clustering self-organizing-maps

3

C'è qualche problema di apprendimento supervisionato che le reti neurali (profonde) ovviamente non possono superare qualsiasi altro metodo?

Ho visto che le persone hanno fatto molti sforzi su SVM e kernel e sembrano piuttosto interessanti come principianti in Machine Learning. Ma se ci aspettiamo che quasi sempre potremmo trovare soluzioni migliori in termini di (profonda) rete neurale, che senso ha provare altri metodi in questa era? Ecco il …

33 machine-learning svm kernel-trick supervised-learning

3

Pre-training nella rete neurale profonda convoluzionale?

Qualcuno ha visto letteratura sulla pre-formazione in una rete neurale convoluzionale profonda? Ho visto solo pre-training senza supervisione in autoencoder o macchine boltzman limitate.

33 machine-learning neural-networks deep-learning conv-neural-network autoencoders

2

Trovare quartili in R

Sto lavorando a un manuale di statistiche mentre apprendo R e ho incontrato un ostacolo sul seguente esempio: Dopo aver guardato ?quantileho provato a ricreare questo in R con il seguente: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > …

33 r quantiles

2

Differenze tra distanza di Bhattacharyya e divergenza di KL

Sto cercando una spiegazione intuitiva per le seguenti domande: Nella statistica e nella teoria dell'informazione, qual è la differenza tra la distanza di Bhattacharyya e la divergenza di KL, come misure della differenza tra due distribuzioni di probabilità discrete? Non hanno assolutamente relazioni e misurano la distanza tra due distribuzioni …

33 mathematical-statistics information-theory kullback-leibler bhattacharyya

1

Qual è la ragione intuitiva alla base delle rotazioni in Factor Analysis / PCA e come selezionare la rotazione appropriata?

Le mie domande Qual è la ragione intuitiva alla base delle rotazioni dei fattori nell'analisi fattoriale (o dei componenti in PCA)? La mia comprensione è che se le variabili sono quasi ugualmente caricate nei componenti (o fattori) principali, ovviamente è difficile differenziare i componenti. Quindi in questo caso si potrebbe …

33 pca interpretation factor-analysis dimensionality-reduction factor-rotation

8

È corretto rimuovere valori anomali dai dati?

Ho cercato un modo per rimuovere valori anomali da un set di dati e ho trovato questa domanda . In alcuni dei commenti e delle risposte a questa domanda, tuttavia, le persone hanno affermato che è una cattiva pratica rimuovere i valori anomali dai dati. Nel mio set di dati …

33 outliers

7

Paradosso del compleanno con una (enorme) svolta: probabilità di condividere esattamente la stessa data di nascita con il partner?

Condivido la stessa data di nascita del mio ragazzo, la stessa data ma anche lo stesso anno, le nostre nascite sono separate da appena 5 ore circa. So che le possibilità di incontrare qualcuno che è nato nella stessa data di me sono abbastanza alte e conosco alcune persone con …

33 probability birthday-paradox

5

Una matrice di covarianza del campione è sempre simmetrica e definita positiva?

Quando si calcola la matrice di covarianza di un campione, si garantisce quindi una matrice simmetrica e definita positiva? Attualmente il mio problema ha un campione di 4600 vettori di osservazione e 24 dimensioni.

33 sampling covariance

4

Origine della soglia "5 " per accettare prove nella fisica delle particelle?

Notizie riportano che il CERN annuncerà domani che il bosone di Higgs è stato rilevato sperimentalmente con prove 5 . Secondo tale articolo:σσ\sigma 5 equivale a una probabilità del 99,9994% che i dati rilevati dai rilevatori CMS e ATLAS non siano solo rumore casuale - e una probabilità dello 0,00006% …

33 hypothesis-testing p-value history

2

Gradi di libertà di nel test di Hosmer-Lemeshow

La statistica del test per il test di Hosmer-Lemeshow (HLT) per la bontà di adattamento (GOF) di un modello di regressione logistica è definita come segue: Il campione viene quindi suddiviso in decili, , per decile si calcolano le seguenti quantità:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i …

33 regression logistic goodness-of-fit degrees-of-freedom hosmer-lemeshow-test

3

Interpretazione dei grafici diagnostici residui per i modelli glm?

Sto cercando linee guida su come interpretare i grafici residui dei modelli glm. Soprattutto modelli poisson, binomiali negativi, binomiali. Cosa possiamo aspettarci da questi grafici quando i modelli sono "corretti"? (ad esempio, prevediamo che la varianza aumenti all'aumentare del valore previsto, per quando si ha a che fare con un …

33 generalized-linear-model diagnostic residuals

3

Le cifre di

Supponiamo di osservare la sequenza: 7, 9, 0, 5, 5, 5, 4, 8, 0, 6, 9, 5, 3, 8, 7, 8, 5, 4, 0, 0, 6, 6, 4, 5, 3, 3, 7, 5, 9, 8, 1, 8, 6, 2, 8, 4, 6, 4, 1, 9, 9, 0, 5, 2, 2, …

33 random-generation randomness

4

(Perché) i modelli sovralimentati tendono ad avere coefficienti elevati?

Immagino che maggiore è un coefficiente su una variabile, maggiore è la capacità del modello di "oscillare" in quella dimensione, offrendo una maggiore opportunità di adattamento al rumore. Anche se penso di avere un ragionevole senso della relazione tra la varianza nel modello e i coefficienti elevati, non ho la …

33 regression variance linear-model bias regularization

2

Comprensione del valore p

So che ci sono molti materiali che spiegano il valore p. Tuttavia, il concetto non è facile da comprendere saldamente senza ulteriori chiarimenti. Ecco la definizione di p-value da Wikipedia: Il valore p è la probabilità di ottenere una statistica test almeno estrema quanto quella effettivamente osservata, supponendo che l'ipotesi …

33 hypothesis-testing p-value interpretation