Mentre un certo numero di post sul sito indirizzano varie proprietà del Cauchy, non sono riuscito a individuarne uno che li abbia davvero messi insieme. Spero che questo possa essere un buon posto per collezionarne. Potrei espandere questo.
Code pesanti
Mentre il Cauchy è simmetrico e approssimativamente a forma di campana, un po 'come la distribuzione normale, ha code molto più pesanti (e meno di una "spalla"). Ad esempio, c'è una piccola ma netta probabilità che una variabile casuale di Cauchy ponga più di 1000 intervalli interquartili dalla mediana - all'incirca dello stesso ordine di una normale variabile casuale che sia almeno 2,67 intervalli interquartili dalla sua mediana.
Varianza
La varianza del Cauchy è infinita.
Modifica: JG dice nei commenti che non è definito. Se prendiamo la varianza come media della metà della distanza quadrata tra coppie di valori - che è identica alla varianza quando entrambi esistono, allora sarebbe infinita. Tuttavia, secondo la solita definizione JG è corretta. [Tuttavia, contrariamente ai mezzi di campionamento, che in realtà non convergono in nulla man mano che n diventa grande, la distribuzione delle varianze del campione continua a crescere man mano che aumenta la dimensione del campione; la scala aumenta proporzionalmente a n, o equivalentemente la distribuzione della varianza del log aumenta linearmente con la dimensione del campione. Sembra produttivo considerare effettivamente che la versione della varianza che produce l'infinito ci sta dicendo qualcosa.]
Ovviamente esistono deviazioni standard del campione, ma più grande è il campione più grande tende ad essere (es. La deviazione standard del campione mediano su n = 10 è vicina a 3,67 volte il parametro di scala (metà dell'IQR), ma a n = 100 è circa 11,9).
Significare
La distribuzione di Cauchy non ha nemmeno una media finita; l'integrale per la media non converge. Di conseguenza, anche le leggi di grandi numeri non si applicano - man mano che cresce, campionare significa non convergere in una quantità fissa (in effetti non c'è nulla per cui convergere).
In effetti, la distribuzione della media campionaria da una distribuzione di Cauchy è la stessa della distribuzione di una singola osservazione (!). La coda è così pesante che l'aggiunta di più valori nella somma rende un valore davvero estremo abbastanza probabile da compensare la divisione per un denominatore più grande quando si prende la media.
prevedibilità
Puoi certamente produrre intervalli di predizione perfettamente sensati per le osservazioni da una distribuzione di Cauchy; ci sono stimatori semplici e abbastanza efficienti che si comportano bene per stimare la posizione e la scala e possono essere costruiti intervalli di previsione approssimativi - quindi in questo senso, almeno, i variati di Cauchy sono "prevedibili". Tuttavia, la coda si estende molto lontano, quindi se si desidera un intervallo ad alta probabilità, potrebbe essere piuttosto largo.
Se stai cercando di prevedere il centro della distribuzione (ad es. In un modello di tipo di regressione), in un certo senso potrebbe essere relativamente facile da prevedere; il Cauchy è abbastanza alto (c'è molta distribuzione "vicino" al centro per una tipica misura di scala), quindi il centro può essere relativamente ben stimato se si dispone di uno stimatore appropriato.
Ecco un esempio:
Ho generato dati da una relazione lineare con errori di Cauchy standard (100 osservazioni, intercetta = 3, pendenza = 1,5) e linee di regressione stimate con tre metodi ragionevolmente robusti per gli outlier y: linea di gruppo Tukey 3 (rossa), regressione di Theil (verde scuro) e regressione L1 (blu). Nessuno al Cauchy è particolarmente efficiente, anche se tutti costituirebbero ottimi punti di partenza per un approccio più efficiente.
Tuttavia, i tre sono quasi coincidenti rispetto alla rumorosità dei dati e si trovano molto vicino al centro del punto in cui i dati vengono eseguiti; in tal senso il Cauchy è chiaramente "prevedibile".
La mediana dei residui assoluti è solo leggermente più grande di 1 per una qualsiasi delle linee (la maggior parte dei dati si trova abbastanza vicino alla linea stimata); anche in questo senso, il Cauchy è "prevedibile".
Per la trama a sinistra c'è un grande outlier. Per vedere meglio i dati ho ristretto la scala sull'asse y in basso a destra.