La distribuzione di Cauchy è in qualche modo una distribuzione "imprevedibile"?


14

La distribuzione di Cauchy è in qualche modo una distribuzione "imprevedibile"?

Ho provato a farlo

cs <- function(n) {
  return(rcauchy(n,0,1))
}

in R per una moltitudine di n valori e ho notato che generano valori abbastanza imprevedibili di tanto in tanto.

Confronta quello ad es

as <- function(n) {
  return(rnorm(n,0,1))
}

che sembra sempre dare una nuvola di punti "compatta".

Da questa foto dovrebbe apparire come la normale distribuzione? Eppure forse lo fa solo per un sottoinsieme di valori. O forse il trucco è che le deviazioni standard di Cauchy (nella foto sotto) convergono molto più lentamente (a sinistra e a destra) e quindi consentono valori anomali più gravi, anche se a bassa probabilità?

https://i.stack.imgur.com/zGTLU.png

Ecco come sono normali camper e CS sono Cauchy camper.

inserisci qui la descrizione dell'immagine

Ma dall'estremità degli outlier, è possibile che le code del Cauchy pdf non convergano mai?


9
1. La tua domanda è vaga / poco chiara, quindi è difficile rispondere; ad es. cosa significa "imprevedibile" nella tua domanda? cosa intendi con "deviazioni standard di Cauchy" e convergenza verso la fine? Sembra che tu non stia calcolando deviazioni standard da nessuna parte. deviazioni standard di cosa, esattamente? 2. Molti post sul sito parlano delle proprietà del Cauchy che possono aiutarti a focalizzare la tua domanda. Potrebbe anche valere la pena di controllare Wikipedia. 3. Suggerirei di evitare il termine "a forma di campana"; entrambe le densità sembrano approssimativamente modellate come una campana; chiamali semplicemente con i loro nomi.
Glen_b -Restate Monica

4
Certamente il Cauchy ha una coda molto pesante.
Glen_b

1
Ho pubblicato alcuni fatti; speriamo che questi ti aiuteranno a capire cosa vuoi sapere in modo da poter affinare la tua domanda.
Glen_b

1
|X|X

2
Grandi valori anomali sono possibili con il normale ma sono incredibilmente rari . La densità (e nella coda superiore, particolarmente rilevante per i valori anomali di almeno una data dimensione, la funzione di sopravvivenza) per le teste normali verso 0 molto più rapidamente rispetto al Cauchy - ma tuttavia entrambe le densità (ed entrambe le funzioni di sopravvivenza) avvicina 0 e non lo raggiungi mai.
Glen_b -Restate Monica

Risposte:


39

Mentre un certo numero di post sul sito indirizzano varie proprietà del Cauchy, non sono riuscito a individuarne uno che li abbia davvero messi insieme. Spero che questo possa essere un buon posto per collezionarne. Potrei espandere questo.

Code pesanti

Mentre il Cauchy è simmetrico e approssimativamente a forma di campana, un po 'come la distribuzione normale, ha code molto più pesanti (e meno di una "spalla"). Ad esempio, c'è una piccola ma netta probabilità che una variabile casuale di Cauchy ponga più di 1000 intervalli interquartili dalla mediana - all'incirca dello stesso ordine di una normale variabile casuale che sia almeno 2,67 intervalli interquartili dalla sua mediana.

Varianza

La varianza del Cauchy è infinita.

Modifica: JG dice nei commenti che non è definito. Se prendiamo la varianza come media della metà della distanza quadrata tra coppie di valori - che è identica alla varianza quando entrambi esistono, allora sarebbe infinita. Tuttavia, secondo la solita definizione JG è corretta. [Tuttavia, contrariamente ai mezzi di campionamento, che in realtà non convergono in nulla man mano che n diventa grande, la distribuzione delle varianze del campione continua a crescere man mano che aumenta la dimensione del campione; la scala aumenta proporzionalmente a n, o equivalentemente la distribuzione della varianza del log aumenta linearmente con la dimensione del campione. Sembra produttivo considerare effettivamente che la versione della varianza che produce l'infinito ci sta dicendo qualcosa.]

Ovviamente esistono deviazioni standard del campione, ma più grande è il campione più grande tende ad essere (es. La deviazione standard del campione mediano su n = 10 è vicina a 3,67 volte il parametro di scala (metà dell'IQR), ma a n = 100 è circa 11,9).

Significare

La distribuzione di Cauchy non ha nemmeno una media finita; l'integrale per la media non converge. Di conseguenza, anche le leggi di grandi numeri non si applicano - man mano che cresce, campionare significa non convergere in una quantità fissa (in effetti non c'è nulla per cui convergere).

In effetti, la distribuzione della media campionaria da una distribuzione di Cauchy è la stessa della distribuzione di una singola osservazione (!). La coda è così pesante che l'aggiunta di più valori nella somma rende un valore davvero estremo abbastanza probabile da compensare la divisione per un denominatore più grande quando si prende la media.

prevedibilità

Puoi certamente produrre intervalli di predizione perfettamente sensati per le osservazioni da una distribuzione di Cauchy; ci sono stimatori semplici e abbastanza efficienti che si comportano bene per stimare la posizione e la scala e possono essere costruiti intervalli di previsione approssimativi - quindi in questo senso, almeno, i variati di Cauchy sono "prevedibili". Tuttavia, la coda si estende molto lontano, quindi se si desidera un intervallo ad alta probabilità, potrebbe essere piuttosto largo.

Se stai cercando di prevedere il centro della distribuzione (ad es. In un modello di tipo di regressione), in un certo senso potrebbe essere relativamente facile da prevedere; il Cauchy è abbastanza alto (c'è molta distribuzione "vicino" al centro per una tipica misura di scala), quindi il centro può essere relativamente ben stimato se si dispone di uno stimatore appropriato.

Ecco un esempio:

Ho generato dati da una relazione lineare con errori di Cauchy standard (100 osservazioni, intercetta = 3, pendenza = 1,5) e linee di regressione stimate con tre metodi ragionevolmente robusti per gli outlier y: linea di gruppo Tukey 3 (rossa), regressione di Theil (verde scuro) e regressione L1 (blu). Nessuno al Cauchy è particolarmente efficiente, anche se tutti costituirebbero ottimi punti di partenza per un approccio più efficiente.

Tuttavia, i tre sono quasi coincidenti rispetto alla rumorosità dei dati e si trovano molto vicino al centro del punto in cui i dati vengono eseguiti; in tal senso il Cauchy è chiaramente "prevedibile".

La mediana dei residui assoluti è solo leggermente più grande di 1 per una qualsiasi delle linee (la maggior parte dei dati si trova abbastanza vicino alla linea stimata); anche in questo senso, il Cauchy è "prevedibile".

relazione lineare con errori di Cauchy e tre linee di regressione adattate

Per la trama a sinistra c'è un grande outlier. Per vedere meglio i dati ho ristretto la scala sull'asse y in basso a destra.


1
Le code pesanti e la varianza essendo l'infinito sono correlate, giusto?
mavavilj,

Certamente. La media indefinita è anche correlata alle code pesanti.
Glen_b -Restate Monica

"Ci sono stimatori semplici e abbastanza efficienti che si comportano bene per stimare la posizione e la scala e possono essere costruiti intervalli di previsione approssimativi" - puoi fornire i riferimenti?
Carlos Cinelli,

I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
gung - Ripristina Monica

@Carlos Ci sono due diversi problemi lì - (i) stimatori semplici, abbastanza efficienti per posizione (come una media adeguatamente tagliata) e scala nel Cauchy, e (ii) metodi per costruire un intervallo di predizione che funzionerebbe per il Cauchy. Penso che il primo sia già stato trattato sul sito e il secondo meriterebbe una domanda a sé stante.
Glen_b -Restate Monica

1

μσnμ±σμ±636,62σ

σ

La distribuzione di Cauchy appare piuttosto in natura, in particolare dove hai una qualche forma di crescita. Appare anche dove ruotano le cose, come le rocce che rotolano giù per le colline. Lo troverai come la distribuzione principale di una brutta miscela di distribuzioni nei rendimenti del mercato azionario, anche se non nei rendimenti per cose come gli oggetti d'antiquariato venduti nelle aste. I ritorni sugli oggetti d'antiquariato appartengono anche a una distribuzione senza una media o una varianza, ma non a una distribuzione di Cauchy. Le differenze sono create dalle differenze nelle regole dell'asta. Se cambiassi le regole del NYSE, la distribuzione di Cauchy scomparirebbe e ne apparirebbe una diversa.

Per capire perché di solito è presente, immagina di essere un offerente in una serie molto ampia di offerenti e potenziali offerenti. Poiché le azioni sono vendute in una doppia asta, la maledizione del vincitore non si applica. In equilibrio, il comportamento razionale è di offrire il valore atteso. Un'aspettativa è una forma della media. Una distribuzione di stime medie converge alla normalità quando la dimensione del campione va all'infinito.

rt=pt+1pt

Questo rende il mercato azionario molto volatile, se si pensa che il mercato azionario dovrebbe avere una distribuzione normale o log-normale, ma non inaspettatamente volatile se si prevedono code pesanti.

Ho costruito sia la distribuzione predittiva bayesiana che quella frequentista per la distribuzione di Cauchy e, date le loro ipotesi, funzionano bene. La previsione bayesiana minimizza la divergenza di Kullback-Leibler, il che significa che è il più vicino possibile alla natura in una previsione, per un dato set di dati. La previsione Frequentist minimizza la divergenza media di Kullback-Leibler su molte previsioni indipendenti da molti campioni indipendenti. Tuttavia, non funziona necessariamente bene per un campione come ci si aspetterebbe con una copertura media. Le code convergono, ma convergono lentamente.

Il Cauchy multivariato ha proprietà ancora più sconvolgenti. Ad esempio, sebbene ovviamente non possa covary poiché non esiste alcun mezzo, non ha nulla di simile a una matrice di covarianza. Gli errori di Cauchy sono sempre sferici se non succede nient'altro nel sistema. Inoltre, mentre nulla è covario, niente è indipendente. Per capire quanto possa essere importante in senso pratico, immagina due paesi che stanno entrambi crescendo e che commerciano tra loro. Gli errori in uno non sono indipendenti dagli errori nell'altro. I miei errori influenzano i tuoi errori. Se un paese viene preso in consegna da un pazzo, gli errori di quel pazzo si fanno sentire ovunque. D'altra parte, poiché gli effetti non sono lineari come ci si aspetterebbe da una matrice di covarianza, gli altri paesi possono interrompere le relazioni per ridurre al minimo l'impatto.

Questo è anche ciò che rende la guerra commerciale di Trump così pericolosa. La seconda economia più grande del mondo dopo l'Unione Europea dichiarò guerra economica attraverso il commercio contro ogni altra singola economia e sta finanziando quella guerra prendendo in prestito i soldi per combatterla dalle nazioni su cui dichiarò guerra. Se quelle dipendenze sono costrette a distendersi, sarà brutto in un modo di cui nessuno ha un ricordo vivo. Non abbiamo avuto un problema simile dall'amministrazione Jackson quando la Bank of England ha imbarazzato il commercio atlantico.

La distribuzione di Cauchy è affascinante perché appare in sistemi di crescita esponenziali e curva a S. Confondono le persone perché la loro vita quotidiana è piena di densità che hanno una media e di solito hanno una varianza. Rende molto difficile il processo decisionale perché vengono apprese lezioni sbagliate.


Mi piace il modo audace in cui le proprietà matematiche sono mappate al comportamento del mondo reale in questa risposta. Ma non dovresti dire che un Cauchy troncato (su entrambi i lati) ha finito tutti i suoi momenti?
Alecos Papadopoulos,

Viene troncato solo a sinistra. Il vincolo nominale del bilancio planetario è stocastico a destra e poiché i sistemi monetari non conservano i sistemi, sono infiniti a destra.
Dave Harris,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.