Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati








5
Rilevamento di predittori significativi tra molte variabili indipendenti
In un set di dati di due popolazioni non sovrapposte (pazienti e sani, totale ), vorrei trovare (su variabili indipendenti) predittori significativi per una variabile dipendente continua. La correlazione tra predittori è presente. Sono interessato a scoprire se qualcuno dei predittori è correlato alla variabile dipendente "in realtà" (piuttosto che …



1
Riduzione della dimensionalità (SVD o PCA) su una matrice ampia e sparsa
/ modifica: ulteriori follow-up ora è possibile utilizzare irlba :: prcomp_irlba / modifica: follow-up sul mio post. irlbaora ha argomenti "center" e "scale", che ti permettono di usarlo per calcolare i componenti principali, ad esempio: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Ho una vasta gamma Matrixdi funzioni …

3
Confutazione basata sull'entropia del paradosso della freccia indietro del tempo bayesiano di Shalizi?
In questo articolo , la talentuosa ricercatrice Cosma Shalizi sostiene che per accettare pienamente una visione soggettiva bayesiana, si deve anche accettare un risultato non fisico secondo cui la freccia del tempo (data dal flusso di entropia) dovrebbe effettivamente tornare indietro . Questo è principalmente un tentativo di argomentare contro …

8
Sostituzione dei valori anomali con la media
Questa domanda è stata posta dal mio amico che non è esperto di Internet. Non ho un background statistico e ho cercato su Internet questa domanda. La domanda è: è possibile sostituire i valori anomali con un valore medio? se è possibile, ci sono riferimenti / riviste di libri per …


3
Perché è necessaria la selezione delle variabili?
Le comuni procedure di selezione delle variabili basate su dati (ad esempio, avanti, indietro, per gradi, tutti i sottoinsiemi) tendono a produrre modelli con proprietà indesiderate, tra cui: Coefficienti distorti da zero. Errori standard troppo piccoli e intervalli di confidenza troppo stretti. Testare statistiche e valori p che non hanno …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.