Simulazione di distribuzioni


9

Sto lavorando a un incarico di Pianificazione della capacità e ho letto alcuni libri. Questo riguarda in particolare le distribuzioni. Io uso R.

  1. Qual è l'approccio raccomandato per identificare la mia distribuzione dei dati? Esistono metodi statistici per identificarlo?

Ho questo diagramma.

APPROCCI PROBABILISTICI: ANALISI DELLO SCENARIO, ALBERI DI DECISIONE E SIMULAZIONI

  1. Quali sono gli approcci di simulazione disponibili usando R? Qui voglio generare dati per una certa distribuzione come esponenziale. R-java è l'approccio giusto se voglio integrarlo con Java?

  2. Esiste un modo per prevedere quale distribuzione avrà l'effetto (utilizzo della CPU ecc.) Quando installo i dati per una particolare distribuzione? Quali sono i diversi effetti dell'invio di determinate distribuzioni di dati?

Si prega di considerare queste come domande per principianti. Esistono libri o materiali che trattano questo tipo di simulazioni?

Appunti

Il diagramma è tratto dalla fine del documento http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Bontà delle tecniche di adattamento che ho incontrato

Valutazione della bontà di adattamento

  1. Chi-squared
  2. Kolmogorov-Smirnov,
  3. Anderson-Darling statistiche densità, diagrammi cdf, PP e QQ

Non sono sicuro di quale debba essere l'interpretazione o i passaggi successivi se trovo che la mia distribuzione sia normale o esponenziale, ecc. Cosa mi consente di fare? Predizione? Spero che questa domanda sia chiara.

I ritardi esponenziali indurranno fluttuazioni di coda secondo il mio libro sulla pianificazione della capacità di Neil Gunther. Quindi conosco questo punto.


Se pensi che il tuo diagramma sia importante, allora dovresti provare a migliorare la qualità dell'immagine ...
ocram,

Apprezzo la cura necessaria per fare una bella domanda. A mio avviso, il tuo punto 2. (che dovrebbe essere 3 credo) necessiti di chiarimenti, o potresti anche spostarlo in Stack Overflow.
gui11aume,

1
Penso che la mia ultima domanda appartenga qui. Diciamo che identifico la mia distribuzione dei dati. Prevedo che le future distribuzioni seguiranno questa probabilità? Mi manca la parte di analisi dei dati qui. So che una trama di baffi mostra facilmente quartili che capisco. Non ho l'utilità di una distribuzione. Che ci siano proprietà di questa distribuzione che devo investigare per la previsione.
Mohan Radhakrishnan,

@ocram Se la qualità è scadente, ingrandisci la pagina nel tuo browser: i dettagli sono lì. A proposito, queste immagini devono provenire da parte della documentazione di Crystal Ball .
whuber

@whuber: In effetti, non ci ho nemmeno provato! Ci scusiamo per il commento.
ocram,

Risposte:


7

Risponderò al tuo punto sulle simulazioni con R perché questo è l'unico con cui ho familiarità. R ha molte distribuzioni integrate che puoi simulare. La logica della denominazione è che per simulare una distribuzione chiamata dissarà il nome rdis.

Di seguito sono quelli che uso più spesso

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Potete trovare alcuni complementi in Raccordo distribuzioni con R .

Aggiunta: grazie a @jthetzel per aver fornito un collegamento con un elenco completo delle distribuzioni e dei pacchetti a cui appartengono.

Ma aspetta, c'è di più: OK, seguendo il commento di @ Whuber proverò ad affrontare gli altri punti. Per quanto riguarda il punto 1, non seguo mai un approccio di bontà di adattamento. Invece penso sempre all'origine del segnale, come ciò che causa il fenomeno, ci sono alcune simmetrie naturali in ciò che lo produce, ecc. Hai bisogno di diversi capitoli di libri per coprirlo, quindi darò solo due esempi.

  1. Se i dati sono conteggi e non esiste un limite superiore, provo un Poisson. Le variabili di Poisson possono essere interpretate come i conteggi dei successivi indipendenti durante una finestra temporale, che è un quadro molto generale. Adatto la distribuzione e vedo (spesso visivamente) se la varianza è ben descritta. Abbastanza spesso, la varianza del campione è molto più elevata, nel qual caso uso un binomio negativo. Il binomio negativo può essere interpretato come un mix di Poisson con variabili diverse, il che è ancora più generale, quindi di solito si adatta molto bene al campione.

  2. Se penso che i dati siano simmetrici attorno alla media, cioè che le deviazioni abbiano ugualmente probabilità di essere positive o negative, provo ad adattarmi a un gaussiano. Poi controllo (sempre visivamente) se ci sono molti valori anomali, cioè punti di dati molto lontani dalla media. Se ci sono, uso invece una t di uno studente. La distribuzione t di Student può essere interpretata come una miscela di gaussiano con diverse varianze, che è di nuovo molto generale.

In quegli esempi, quando dico visivamente, intendo che uso un diagramma QQ

Il punto 3 merita anche diversi capitoli di libri. Gli effetti dell'utilizzo di una distribuzione anziché di un'altra sono illimitati. Quindi, invece di esaminare tutto, continuerò i due esempi sopra.

  1. All'inizio, non sapevo che il binomio negativo potesse avere un'interpretazione significativa, quindi ho usato Poisson tutto il tempo (perché mi piace essere in grado di interpretare i parametri in termini umani). Molto spesso, quando si utilizza un Poisson, si adatta bene la media, ma si sottovaluta la varianza. Ciò significa che non si è in grado di riprodurre valori estremi del proprio campione e si considereranno tali valori come valori anomali (punti dati che non hanno la stessa distribuzione degli altri punti) mentre in realtà non lo sono.

  2. Ancora una volta, non sapevo che anche la t di Student avesse un'interpretazione significativa e avrei sempre usato il gaussiano. È successa una cosa simile. Avrei adattato bene la media e la varianza, ma non avrei ancora catturato gli outlier perché quasi tutti i punti di dati dovrebbero essere entro 3 deviazioni standard della media. La stessa cosa è successa, ho concluso che alcuni punti erano "straordinari", mentre in realtà non lo erano.


2
Una nota da aggiungere alla risposta di gui11aume: Esiste una sintassi "d, p, q, r" per le funzioni relative distribuzione in R. Ad esempio, dnorm, pnorm, qnorm, e rnormsono la densità, funzione di distribuzione cumulativa (CDF), inversa CDF, e funzioni del generatore di variabili casuali per la distribuzione normale, rispettivamente. Vedere la vista dell'attività di distribuzione di probabilità per un elenco completo delle distribuzioni disponibili.
jthetzel,

Sì, grazie mille (+1). Stavo cercando un elenco del genere da molto tempo. L'ho inserito nella risposta in modo che sia più visibile.
gui11aume,

1
Non potrei nemmeno dirti quale sia un terzo di quelle distribuzioni. Molto altro da imparare ... +1, ma non dimentichiamo il resto della domanda, che è fondamentale (ma forse un po 'troppo ampia): quali effetti hanno le scelte di distribuzione in una simulazione? Come si dovrebbe fare queste scelte?
whuber

@whuber Ho aggiunto l'effetto della distribuzione esponenziale dei ritardi sulle fluttuazioni della coda. Fare riferimento. libri su CP o in coda.
Mohan Radhakrishnan,

Ho letto le distribuzioni di adattamento con R e ho usato una volta anche il diagramma QQ. La stima della massima verosimiglianza inizia con l'espressione matematica nota come funzione di verosimiglianza dei dati del campione. In termini approssimativi, la verosimiglianza di un insieme di dati è la probabilità di ottenere quel particolare insieme di dati dato il modello di probabilità scelto. Questo significa che esiste un modo per calcolare che la distribuzione può ripetersi? Quante misure sono necessarie per dimostrarlo?
Mohan Radhakrishnan,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.