Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


3
C'è qualche problema di apprendimento supervisionato che le reti neurali (profonde) ovviamente non possono superare qualsiasi altro metodo?
Ho visto che le persone hanno fatto molti sforzi su SVM e kernel e sembrano piuttosto interessanti come principianti in Machine Learning. Ma se ci aspettiamo che quasi sempre potremmo trovare soluzioni migliori in termini di (profonda) rete neurale, che senso ha provare altri metodi in questa era? Ecco il …


2
Trovare quartili in R
Sto lavorando a un manuale di statistiche mentre apprendo R e ho incontrato un ostacolo sul seguente esempio: Dopo aver guardato ?quantileho provato a ricreare questo in R con il seguente: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > …
33 r  quantiles 

2
Differenze tra distanza di Bhattacharyya e divergenza di KL
Sto cercando una spiegazione intuitiva per le seguenti domande: Nella statistica e nella teoria dell'informazione, qual è la differenza tra la distanza di Bhattacharyya e la divergenza di KL, come misure della differenza tra due distribuzioni di probabilità discrete? Non hanno assolutamente relazioni e misurano la distanza tra due distribuzioni …

1
Qual è la ragione intuitiva alla base delle rotazioni in Factor Analysis / PCA e come selezionare la rotazione appropriata?
Le mie domande Qual è la ragione intuitiva alla base delle rotazioni dei fattori nell'analisi fattoriale (o dei componenti in PCA)? La mia comprensione è che se le variabili sono quasi ugualmente caricate nei componenti (o fattori) principali, ovviamente è difficile differenziare i componenti. Quindi in questo caso si potrebbe …

8
È corretto rimuovere valori anomali dai dati?
Ho cercato un modo per rimuovere valori anomali da un set di dati e ho trovato questa domanda . In alcuni dei commenti e delle risposte a questa domanda, tuttavia, le persone hanno affermato che è una cattiva pratica rimuovere i valori anomali dai dati. Nel mio set di dati …
33 outliers 




2
Gradi di libertà di nel test di Hosmer-Lemeshow
La statistica del test per il test di Hosmer-Lemeshow (HLT) per la bontà di adattamento (GOF) di un modello di regressione logistica è definita come segue: Il campione viene quindi suddiviso in decili, , per decile si calcolano le seguenti quantità:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i …


3
Le cifre di
Supponiamo di osservare la sequenza: 7, 9, 0, 5, 5, 5, 4, 8, 0, 6, 9, 5, 3, 8, 7, 8, 5, 4, 0, 0, 6, 6, 4, 5, 3, 3, 7, 5, 9, 8, 1, 8, 6, 2, 8, 4, 6, 4, 1, 9, 9, 0, 5, 2, 2, …


2
Comprensione del valore p
So che ci sono molti materiali che spiegano il valore p. Tuttavia, il concetto non è facile da comprendere saldamente senza ulteriori chiarimenti. Ecco la definizione di p-value da Wikipedia: Il valore p è la probabilità di ottenere una statistica test almeno estrema quanto quella effettivamente osservata, supponendo che l'ipotesi …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.