Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


2
Come tracciare il confine decisionale di un classificatore k vicino più vicino da Elements of Statistical Learning?
Voglio generare la trama descritta nel libro ElemStatLearn "Gli elementi dell'apprendimento statistico: data mining, inferenza e previsione. Seconda edizione" di Trevor Hastie, Robert Tibshirani e Jerome Friedman. La trama è: Mi chiedo come posso produrre questo grafico esatto R, in particolare notare la griglia grafica e il calcolo per mostrare …


5
Qual è la differenza tra "valore medio" e "media"?
Wikipedia spiega: Per un set di dati, la media è la somma dei valori divisa per il numero di valori. Questa definizione corrisponde tuttavia a ciò che chiamo "medio" (almeno è quello che ricordo di aver appreso). Eppure Wikipedia cita ancora una volta: Esistono altre misure statistiche che utilizzano campioni …

3
Visualizzando un milione, edizione PCA
È possibile visualizzare l'output dell'analisi dei componenti principali in modo da fornire maggiori informazioni oltre alle semplici tabelle di riepilogo? È possibile farlo quando il numero di osservazioni è grande, diciamo ~ 1e4? Ed è possibile farlo in R [benvenuto in altri ambienti]?


6
Qualcuno può offrire un esempio di una distribuzione unimodale che ha un'inclinazione pari a zero ma che non è simmetrica?
Nel maggio 2010 l'utente Mcorazao di Wikipedia ha aggiunto una frase all'articolo di asimmetria secondo cui "Un valore zero indica che i valori sono distribuiti in modo relativamente uniforme su entrambi i lati della media, in genere ma non necessariamente implicando una distribuzione simmetrica". Tuttavia, la pagina wiki non contiene …

6
Come aumentare la riproducibilità a lungo termine della ricerca (in particolare utilizzando R e Sweave)
Contesto: in risposta a una domanda precedente sulla ricerca riproducibile, ha scritto Jake Un problema che abbiamo scoperto durante la creazione del nostro archivio JASA è stato il cambiamento delle versioni e dei valori predefiniti dei pacchetti CRAN. Quindi, in quell'archivio, includiamo anche le versioni dei pacchetti che abbiamo usato. …

3
Adatte viste trincerate di valori p
A volte nei rapporti includo un disclaimer sui valori di p e altre statistiche inferenziali che ho fornito. Dico che dal momento che il campione non era casuale, tali statistiche non si sarebbero applicate rigorosamente. La mia formulazione specifica è di solito riportata in una nota a piè di pagina: …





1
Confronti multipli su un modello di effetti misti
Sto cercando di analizzare alcuni dati usando un modello a effetti misti. I dati che ho raccolto rappresentano il peso di alcuni giovani animali di diverso genotipo nel tempo. Sto usando l'approccio proposto qui: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ In particolare sto usando la soluzione n. 2 Quindi ho qualcosa del genere require(nlme) model …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.