Domande per principianti:
Voglio verificare se due set di dati discreti provengono dalla stessa distribuzione. Mi è stato suggerito un test di Kolmogorov-Smirnov.
Conover ( Practical Nonparametric Statistics , 3d) sembra dire che il test di Kolmogorov-Smirnov può essere utilizzato per questo scopo, ma il suo comportamento è "conservativo" con distribuzioni discrete, e non sono sicuro di cosa significhi qui.
Il commento di DavidR su un'altra domanda dice "... Puoi ancora fare un test di livello α basato sulla statistica KS, ma dovrai trovare qualche altro metodo per ottenere il valore critico, ad esempio mediante simulazione."
La versione di ks.test () nel pacchetto dgof R ( articolo , cran ) aggiunge alcune funzionalità non presenti nella versione predefinita di ks.test () nel pacchetto stats. Tra le altre cose, dgof :: ks.test include questo parametro:
simulate.p.value: una logica che indica se calcolare i valori p mediante la simulazione Monte Carlo, solo per test discreti di bontà di adattamento.
Lo scopo di simulate.p.value = T è quello di realizzare ciò che DavidR suggerisce?
Anche se lo è, non sono sicuro di poter davvero usare dgof :: ks.test per un test a due campioni. Sembra che fornisca solo un test a due campioni per una distribuzione continua:
Se y è numerico, viene eseguito un test a due campioni dell'ipotesi nulla che xey siano stati disegnati dalla stessa distribuzione continua.
In alternativa, y può essere una stringa di caratteri che denomina una funzione di distribuzione continua (cumulativa) (o tale funzione) o una funzione ecdf (o oggetto di classe stepfun) che fornisce una distribuzione discreta. In questi casi, viene eseguito un test di un campione del null che la funzione di distribuzione che ha generato x è la distribuzione y ....
(Dettagli di base: a rigor di termini, le mie distribuzioni sottostanti sono continue, ma i dati tendono a trovarsi molto vicino a una manciata di punti. Ogni punto è il risultato di una simulazione ed è una media di 10 o 20 numeri reali tra -1 e 1. Alla fine della simulazione, quei numeri sono quasi sempre molto vicini a .9 o -.9, quindi i mezzi si raggruppano attorno ad alcuni valori e li sto trattando come discreti. La simulazione è complessa e non ho motivo per pensare che i dati seguano una distribuzione ben nota.)
Consigli?