Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati




3
Perché Lars e Glmnet offrono soluzioni diverse per il problema del lazo?
Voglio capire meglio i pacchetti R Larse Glmnet, che sono usati per risolvere il problema Lazo: (per Variabili e campioni, vedi www.stanford.edu/~hastie/Papers/glmnet.pdf a pagina 3)pNm i n( β0β) ∈ Rp + 1[ 12 NΣi = 1N( yio- β0- xTioβ)2+ λ | | β| |l1]mion(β0β)∈Rp+1[12NΣio=1N(yio-β0-XioTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta …

8
Esegui il clustering di K-medie (o dei suoi parenti stretti) con solo una matrice di distanza, non dati punto per caratteristica
Voglio eseguire il clustering dei mezzi K sugli oggetti che ho, ma gli oggetti non sono descritti come punti nello spazio, cioè per objects x featuresset di dati. Tuttavia, sono in grado di calcolare la distanza tra due oggetti qualsiasi (si basa su una funzione di somiglianza). Quindi, dispongo della …


1
Correlazione intraclasse (ICC) per un'interazione?
Supponiamo che io abbia delle misurazioni per ogni soggetto in ciascun sito. Due variabili, soggetto e sito, sono interessanti in termini di calcolo dei valori di correlazione intraclasse (ICC). Tipicamente userei la funzione lmerdal pacchetto R lme4, ed eseguivo lmer(measurement ~ 1 + (1 | subject) + (1 | site), …


2
È possibile accumulare una serie di statistiche che descrivono un gran numero di campioni in modo da poter produrre un diagramma a scatole?
Devo chiarire immediatamente che sono uno sviluppatore di software praticante, non uno statistico, e che la mia classe di statistiche del college era molto tempo fa ... Detto questo, vorrei sapere se esiste un metodo per accumulare una serie di statistiche descrittive che potrebbero quindi essere utilizzate per produrre un …


4
Quando sono applicabili i risultati di Shao sulla validazione incrociata con esclusione per singolo?
Nel suo articolo Linear Model Selection by Cross-Validation , Jun Shao mostra che per il problema della selezione variabile nella regressione lineare multivariata, il metodo di validazione incrociata unilaterale (LOOCV) è "asintoticamente incoerente". In parole povere, tende a selezionare modelli con troppe variabili. In uno studio di simulazione, Shao mostra …

4
Entropia di un'immagine
Qual è il modo più corretto informazioni / fisica-teorica per calcolare l'entropia di un'immagine? In questo momento non mi interessa l'efficienza computazionale, teoricamente la voglio il più corretta possibile. Iniziamo con un'immagine in scala di grigi. Un approccio intuitivo è considerare l'immagine come una borsa di pixel e calcolare dove …

1
C'è qualche differenza tra e ?
Il coefficiente di correlazione è solitamente scritto con una maiuscola ma a volte no. Mi chiedo se c'è davvero una differenza tra e ? può significare qualcos'altro oltre a un coefficiente di correlazione?r 2 R 2 rRRRr2r2r^2R2R2R^2rrr



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.