Perché le distribuzioni sono importanti?


10

Questo potrebbe anche andare giù come le domande più stupide mai poste su questo forum, ma dopo aver ricevuto risposte valide e significative a una domanda precedente, ho pensato che avrei allungato di nuovo la mia fortuna.

Sono stato molto confuso da tempo sull'importanza delle distribuzioni statistiche soprattutto in relazione ai rendimenti delle attività e ancor più specificamente nell'allocazione delle attività.

La mia domanda per essere specifici è questa: supponiamo di avere 20 anni di dati sui rendimenti mensili di S&P 500, perché dovrei assumere un certo tipo di distribuzione (ad esempio volo Normale / Johnson / Levy ecc.) Per la mia decisione di allocazione delle risorse quando posso semplicemente prendere semplicemente le mie decisioni di allocazione degli asset in base ai dati storici che ho con me?


3
ricorda che se hai trovato utili le risposte alla tua domanda precedente, puoi contrassegnarle come "accettate" facendo clic sulla casella di controllo accanto alla risposta. questo fa sapere agli altri che la tua domanda è stata risolta.
Jeff,

2
In realtà esiste un recente post di JDCook sull'argomento. Per delineare la sua rilevanza per la tua domanda, citerò dal primo paragrafo "Quando gli statistici analizzano i dati, non si limitano a guardare i dati che porti a loro. Considerano anche i dati ipotetici che potresti aver portato. In altre parole , considerano ciò che sarebbe potuto accadere e ciò che è effettivamente accaduto ".
user603

Credo che Taleb avesse qualcosa di convincente da dire sui problemi con le decisioni prese esclusivamente da dati storici :-). (I dati storici di solito non rivelano direttamente gli eventi rari ma potenzialmente fatali "cigno nero" fino a quando non è troppo tardi.)
whuber

2
... come la maggior parte dei tacchini arriverà a realizzare tra un paio di settimane.
Ryogi,

Per espandere il punto di @utente603, si desidera fare inferenze al di fuori del proprio campione. In particolare, il punto dell'allocazione delle risorse si riferisce a comportamenti futuri , non a comportamenti passati. Questo include, ad esempio, come si comportano le cose nella coda, dove hai poche osservazioni. È possibile apportare ulteriori conoscenze / comprensione / pregiudizi sul processo tramite ipotesi distributive. Se questi presupposti sono da qualche parte vicini alla destra, puoi aggiungere molte informazioni.
Glen_b -Restate Monica

Risposte:


5

L'uso di una distribuzione presunta (es. Analisi parametrica) ridurrà il costo computazionale del metodo. Suppongo che desideri eseguire un'attività di regressione o classificazione. Ciò significa che ad un certo punto stimerai la distribuzione di alcuni dati. I metodi non parametrici sono utili quando i dati non sono conformi a una distribuzione ben studiata, ma in genere richiedono più tempo per il calcolo o più memoria per l'archiviazione.

Inoltre, se i dati sono generati da un processo conforme a una distribuzione, ad esempio una media di alcuni processi uniformemente casuali, l'utilizzo di tale distribuzione ha più senso. Nel caso della media di un insieme di variabili uniformi, la distribuzione corretta è probabilmente la distribuzione gaussiana.


0

Risposta complementare di James : i modelli parametrici richiedono anche (di solito) meno campioni per avere una buona corrispondenza: questo può aumentare il loro potere di generalizzazione: cioè, possono prevedere meglio i nuovi dati, anche se sbagliano. Naturalmente, ciò dipende dalla situazione, dai modelli e dalle dimensioni del campione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.