Risponderò al tuo punto sulle simulazioni con R perché questo è l'unico con cui ho familiarità. R ha molte distribuzioni integrate che puoi simulare. La logica della denominazione è che per simulare una distribuzione chiamata dis
sarà il nome rdis
.
Di seguito sono quelli che uso più spesso
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Potete trovare alcuni complementi in Raccordo distribuzioni con R .
Aggiunta: grazie a @jthetzel per aver fornito un collegamento con un elenco completo delle distribuzioni e dei pacchetti a cui appartengono.
Ma aspetta, c'è di più: OK, seguendo il commento di @ Whuber proverò ad affrontare gli altri punti. Per quanto riguarda il punto 1, non seguo mai un approccio di bontà di adattamento. Invece penso sempre all'origine del segnale, come ciò che causa il fenomeno, ci sono alcune simmetrie naturali in ciò che lo produce, ecc. Hai bisogno di diversi capitoli di libri per coprirlo, quindi darò solo due esempi.
Se i dati sono conteggi e non esiste un limite superiore, provo un Poisson. Le variabili di Poisson possono essere interpretate come i conteggi dei successivi indipendenti durante una finestra temporale, che è un quadro molto generale. Adatto la distribuzione e vedo (spesso visivamente) se la varianza è ben descritta. Abbastanza spesso, la varianza del campione è molto più elevata, nel qual caso uso un binomio negativo. Il binomio negativo può essere interpretato come un mix di Poisson con variabili diverse, il che è ancora più generale, quindi di solito si adatta molto bene al campione.
Se penso che i dati siano simmetrici attorno alla media, cioè che le deviazioni abbiano ugualmente probabilità di essere positive o negative, provo ad adattarmi a un gaussiano. Poi controllo (sempre visivamente) se ci sono molti valori anomali, cioè punti di dati molto lontani dalla media. Se ci sono, uso invece una t di uno studente. La distribuzione t di Student può essere interpretata come una miscela di gaussiano con diverse varianze, che è di nuovo molto generale.
In quegli esempi, quando dico visivamente, intendo che uso un diagramma QQ
Il punto 3 merita anche diversi capitoli di libri. Gli effetti dell'utilizzo di una distribuzione anziché di un'altra sono illimitati. Quindi, invece di esaminare tutto, continuerò i due esempi sopra.
All'inizio, non sapevo che il binomio negativo potesse avere un'interpretazione significativa, quindi ho usato Poisson tutto il tempo (perché mi piace essere in grado di interpretare i parametri in termini umani). Molto spesso, quando si utilizza un Poisson, si adatta bene la media, ma si sottovaluta la varianza. Ciò significa che non si è in grado di riprodurre valori estremi del proprio campione e si considereranno tali valori come valori anomali (punti dati che non hanno la stessa distribuzione degli altri punti) mentre in realtà non lo sono.
Ancora una volta, non sapevo che anche la t di Student avesse un'interpretazione significativa e avrei sempre usato il gaussiano. È successa una cosa simile. Avrei adattato bene la media e la varianza, ma non avrei ancora catturato gli outlier perché quasi tutti i punti di dati dovrebbero essere entro 3 deviazioni standard della media. La stessa cosa è successa, ho concluso che alcuni punti erano "straordinari", mentre in realtà non lo erano.