Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


1
Interpretazione variabile latente di modelli lineari generalizzati (GLM)
Versione breve: Sappiamo che la regressione logistica e la regressione probit possono essere interpretate come implicanti una variabile latente continua che viene discretizzata in base a una soglia fissa prima dell'osservazione. È disponibile una simile interpretazione variabile latente per, per esempio, la regressione di Poisson? Che ne dici della regressione …

2
Il limite dello stimatore della regressione della cresta "varianza unitaria" quando
Considera la regressione della cresta con un vincolo aggiuntivo che richiede che abbia la somma unitaria dei quadrati (equivalentemente, varianza unitaria); se necessario, si può presumere che abbia anche la somma unitaria dei quadrati:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Qual …

1
Mostrando che 100 misurazioni per 5 soggetti forniscono molte meno informazioni di 5 misurazioni per 100 soggetti
Durante una conferenza ho sentito la seguente dichiarazione: 100 misurazioni per 5 soggetti forniscono molte meno informazioni rispetto a 5 misurazioni per 100 soggetti. È abbastanza ovvio che questo è vero, ma mi chiedevo come si potesse dimostrarlo matematicamente ... Penso che si possa usare un modello misto lineare. Tuttavia, …




2
Quando dovremmo discretizzare / binare variabili / caratteristiche indipendenti continue e quando no?
Quando dovremmo discretizzare / binare variabili / caratteristiche indipendenti e quando no? I miei tentativi di rispondere alla domanda: In generale, non dovremmo fare il bin, perché il binning perderà informazioni. Il binning sta effettivamente aumentando il grado di libertà del modello, quindi è possibile causare un eccesso di adattamento …

4
Gli algoritmi di Machine Learning o Deep Learning possono essere utilizzati per "migliorare" il processo di campionamento di una tecnica MCMC?
Sulla base della scarsa conoscenza che ho dei metodi MCMC (Markov chain Monte Carlo), capisco che il campionamento è una parte cruciale della tecnica di cui sopra. I metodi di campionamento più comunemente usati sono Hamiltoniano e Metropolis. Esiste un modo per utilizzare l'apprendimento automatico o anche l'apprendimento profondo per …




2
Promuovere le reti neurali
Di recente, stavo lavorando all'apprendimento di algoritmi di potenziamento, come adaboost, boost gradiente, e ho saputo che lo studente debole più usato è l'albero. Voglio davvero sapere ci sono alcuni esempi recenti di successo (intendo alcuni documenti o articoli) per l'utilizzo di reti neurali come studente di base.


1
Set di dati simili a Anscombe con lo stesso riquadro e trama di baffi (media / std / mediana / MAD / min / max)
EDIT: Poiché questa domanda è stata gonfiata, un riassunto: trovare diversi set di dati significativi e interpretabili con le stesse statistiche miste (media, mediana, media e le loro dispersioni associate e regressione). Il quartetto Anscombe (vedi Scopo della visualizzazione di dati ad alta dimensione? ) È un famoso esempio di …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.