Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati

3
Eseguire la normalizzazione delle funzioni prima o all'interno della convalida del modello?
Una buona pratica comune in Machine Learning è quella di caratterizzare la normalizzazione o la standardizzazione dei dati delle variabili del predittore, tutto qui, centrare i dati sottraendo la media e normalizzarli dividendoli per la varianza (o anche la deviazione standard). Per l'autocontenimento e per la mia comprensione facciamo questo …

3
Perché ci preoccupiamo così tanto dei termini di errore normalmente distribuiti (e dell'omoschedasticità) nella regressione lineare quando non è necessario?
Suppongo di sentirmi frustrato ogni volta che sento qualcuno dire che la non normalità dei residui e / o l'eteroschedasticità violano le ipotesi OLS. Per stimare i parametri in un modello OLS nessuna di queste assunzioni è necessaria dal teorema di Gauss-Markov. Vedo come questo conta nei test di ipotesi …








8
Excel come workbench statistico
Sembra che a molte persone (incluso me) piaccia fare analisi esplorative dei dati in Excel. Alcune limitazioni, come il numero di righe consentite in un foglio di calcolo, sono un problema, ma nella maggior parte dei casi non è impossibile utilizzare Excel per giocare con i dati. Un articolo di …

14
Qual è la caratterizzazione più sorprendente della distribuzione gaussiana (normale)?
Una distribuzione gaussiana standardizzata su RR\mathbb{R} può essere definita dando esplicitamente la sua densità: 12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} o la sua funzione caratteristica. Come ricordato in questa domanda, è anche l'unica distribuzione per cui la media del campione e la varianza sono indipendenti. Quali altre sorprendenti caratterizzazioni alternative delle misure gaussiane che …

10
Clustering con una matrice di distanza
Ho una matrice (simmetrica) Mche rappresenta la distanza tra ogni coppia di nodi. Per esempio, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 …
52 clustering 




Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.