Sto imparando a conoscere la funzione di distribuzione cumulativa empirica. Ma ancora non capisco
Perché si chiama "empirico"?
C'è qualche differenza tra Empirical CDF e CDF?
Sto imparando a conoscere la funzione di distribuzione cumulativa empirica. Ma ancora non capisco
Perché si chiama "empirico"?
C'è qualche differenza tra Empirical CDF e CDF?
Risposte:
Lascia che sia una variabile casuale.
La distinzione è quale misura di probabilità viene utilizzata. Per il CDF empirico, si utilizza la misura di probabilità definita dai conteggi di frequenza in un campione empirico.
Sia una variabile casuale che indica il risultato di un singolo lancio di una moneta in cui indica teste e indica code.
Il CDF per una moneta giusta è dato da:
Se avessi girato 2 teste e 1 coda, il CDF empirico sarebbe:
Il CDF empirico rifletterebbe che nel tuo campione, dei tuoi lanci erano teste.
Sia una variabile casuale normalmente distribuita con media e deviazione standard .
Il CDF è dato da:
Supponiamo che tu abbia avuto 3 disegni IID e ottenuto i valori . Il CDF empirico sarebbe:
Con sufficienti estrazioni IID (e determinate condizioni di regolarità sono soddisfatte), la CDF empirica converrebbe sul CDF sottostante della popolazione.
C'è qualche differenza tra Empirical CDF e CDF?
Sì, sono diversi. Un cdf empirico è un vero cdf, ma i cdf empirici saranno sempre discreti anche se non attinti da una distribuzione discreta, mentre il cdf di una distribuzione può essere altro oltre al discreto.
Se trattate un campione come se fosse una popolazione di valori, ognuno ugualmente probabile (cioè ponete la probabilità 1 / n su ciascuna osservazione), il cdf di quella distribuzione sarebbe l'ECDF dei dati.
Perché si chiama "Empirical"?
È una stima della popolazione cdf basata sul campione; in particolare se trattate le proporzioni del campione ad ogni valore di dati distinto e lo trattate come se fosse una probabilità nella popolazione, ottenete l'ECDF.
Empirical ha un significato simile a "dall'osservazione piuttosto che dalla teoria", ed è esattamente ciò che significa in questo caso ... usando le osservazioni per determinare la funzione di distribuzione.
Il CDF empirico è costruito da un set di dati reale (nella trama sotto, ho usato 100 campioni da una distribuzione normale standard). Il CDF è un costrutto teorico - è quello che vedresti se potessi prendere infiniti campioni.
Il CDF empirico di solito si avvicina abbastanza bene al CDF, specialmente per campioni di grandi dimensioni (in realtà, ci sono teoremi su quanto velocemente converge al CDF all'aumentare della dimensione del campione).
Empirical è qualcosa che costruisci da dati e osservazioni. Ad esempio, supponiamo che tu voglia conoscere la distribuzione dell'altezza delle persone in un paese. Si inizia misurando le persone e si ottiene un istogramma che può essere approssimato a una distribuzione. Quindi si calcola il CDF empirico.
Se stai usando una distribuzione statistica (una formula deterministica che fornisce esattamente lo stesso risultato con gli stessi parametri) puoi anche calcolare il suo CDF.
Secondo Dictionary.com , le definizioni di "empirico" includono:
derivato o guidato da esperienza o esperimento.
Quindi, il CDF empirico è il CDF che ottieni dai tuoi dati. Ciò contrasta con il CDF teorico (spesso chiamato semplicemente "CDF"), che si ottiene da un modello statistico o probabilistico come la distribuzione normale.