Perché usare la teoria dei valori estremi?


18

Vengo dall'ingegneria civile, in cui utilizziamo la teoria del valore estremo , come la distribuzione GEV per prevedere il valore di determinati eventi, come la maggiore velocità del vento , ovvero il valore al quale il 98,5% della velocità del vento sarebbe inferiore.

La mia domanda è: perché usare una distribuzione di valore così estrema ? Non sarebbe più semplice se usassimo semplicemente la distribuzione complessiva e ottenessimo il valore per la probabilità del 98,5% ?

Risposte:


24

Dichiarazione di non responsabilità: nei punti seguenti, GROSSLY presuppone che i dati vengano normalmente distribuiti. Se stai effettivamente progettando qualcosa, parla con un professionista delle statistiche e lascia che quella persona firmi sulla linea dicendo quale sarà il livello. Parla con cinque di loro, o con 25 di loro. Questa risposta è pensata per uno studente di ingegneria civile che chiede "perché" non per un professionista di ingegneria che chiede "come".

Penso che la domanda dietro la domanda sia "qual è la distribuzione del valore estremo?". Sì, sono alcuni simboli algebrici. E allora? giusto?

Pensiamo a inondazioni di 1000 anni. Sono grandi.

Quando succederanno, uccideranno molte persone. Molti ponti stanno crollando.
Sai quale ponte non sta andando giù? Lo voglio. Non ... ancora.

Domanda: Quale ponte non crollerà in un'alluvione di 1000 anni?
Risposta: il ponte progettato per resistere.

I dati necessari per farlo a modo tuo:
Supponiamo quindi di avere 200 anni di dati idrici giornalieri. C'è il diluvio di 1000 anni lì dentro? Non da remoto. Hai un campione di una coda della distribuzione. Non hai la popolazione. Se conoscessi tutta la storia delle inondazioni, avresti la popolazione totale di dati. Pensiamo a questo. Quanti anni di dati devi avere, quanti campioni, per avere almeno un valore la cui probabilità è 1 su 1000? In un mondo perfetto, avresti bisogno di almeno 1000 campioni. Il mondo reale è disordinato, quindi hai bisogno di più. Inizi a ottenere probabilità 50/50 su circa 4000 campioni. Inizi a ottenere la garanzia di avere più di 1 su circa 20.000 campioni. Campione non significa "acqua un secondo contro il prossimo" ma una misura per ogni unica fonte di variazione - come la variazione da un anno all'altro. Una misura per un anno, insieme a un'altra misura per un altro anno costituiscono due campioni. Se non si dispone di 4.000 anni di dati validi, è probabile che non ci sia un esempio di inondazione di 1000 anni nei dati. La cosa buona è che non sono necessari molti dati per ottenere un buon risultato.

Ecco come ottenere risultati migliori con meno dati:
se si osservano i massimi annuali, è possibile adattare la "distribuzione di valori estremi" ai 200 valori dei livelli massimi dell'anno e si avrà la distribuzione che contiene il diluvio di 1000 anni -livello. Sarà l'algebra, non l'attuale "quanto è grande". Puoi usare l'equazione per determinare quanto sarà grande l'alluvione di 1000 anni. Quindi, dato quel volume di acqua, puoi costruire il tuo ponte per resistere. Non sparare per il valore esatto, sparare per ingrandirlo, altrimenti stai progettando di fallire sull'alluvione di 1000 anni. Se sei audace, puoi usare il ricampionamento per capire quanto oltre l'esatto valore di 1000 anni devi costruirlo per farlo resistere.

Ecco perché EV / GEV sono le forme analitiche rilevanti:
La distribuzione generalizzata di valori estremi riguarda quanto varia il massimo. La variazione nel massimo si comporta in modo molto diverso dalla variazione nella media. La distribuzione normale, tramite il teorema del limite centrale, descrive molte "tendenze centrali".

Procedura:

  1. eseguire le seguenti 1000 volte:
    i. scegli 1000 numeri dalla distribuzione normale standard
    ii. calcolare il massimo di quel gruppo di campioni e memorizzarlo
  2. ora traccia la distribuzione del risultato

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Questa NON è la "distribuzione normale standard": inserisci qui la descrizione dell'immagine

Il picco è a 3.2 ma il massimo sale a 5.0. Ha inclinato. Non scende sotto circa 2,5. Se avevi dati reali (lo standard normale) e scegli solo la coda, stai scegliendo in modo uniforme qualcosa lungo questa curva. Se sei fortunato, allora sei verso il centro e non la coda inferiore. L'ingegneria è all'opposto della fortuna: si tratta sempre di ottenere costantemente i risultati desiderati. " I numeri casuali sono troppo importanti per lasciare al caso " (vedi nota a piè di pagina), specialmente per un ingegnere. La famiglia di funzioni analitiche che meglio si adatta a questi dati: la famiglia di distribuzioni di valore estremo.

Adattamento del campione:
supponiamo di avere 200 valori casuali del massimo dell'anno dalla distribuzione normale standard e faremo finta che siano i nostri 200 anni di storia dei livelli massimi di acqua (qualunque cosa significhi). Per ottenere la distribuzione dovremmo fare quanto segue:

  1. Esempio della variabile "store" (per rendere il codice breve / facile)
  2. adatto a una distribuzione generalizzata di valore estremo
  3. trova la media della distribuzione
  4. utilizzare il bootstrap per trovare il limite superiore dell'IC al 95% nella variazione della media, in modo da poter indirizzare la nostra ingegneria a tale scopo.

(il codice presume che quanto sopra sia stato eseguito per primo)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Questo dà risultati:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Questi possono essere collegati alla funzione di generazione per creare 20.000 campioni

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Costruire a quanto segue darà 50/50 probabilità di fallimento su ogni anno:

media (y3)
3.23681

Ecco il codice per determinare quale sia il livello di "alluvione" di 1000 anni:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Costruire su questo seguito dovrebbe darti 50/50 probabilità di fallire sull'alluvione di 1000 anni.

p1000
4.510931

Per determinare l'IC superiore del 95% ho usato il seguente codice:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Il risultato è stato:

> mytarget
     95% 
4.812148

Ciò significa che, per resistere alla stragrande maggioranza delle alluvioni di 1000 anni, dato che i tuoi dati sono perfettamente normali (non probabile), devi creare per ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

o il

> 1/(1-out)
   shape 
1077.829 

... un'alluvione di 1078 anni.

Linee di fondo:

  • hai un campione di dati, non la popolazione totale effettiva. Ciò significa che i tuoi quantili sono stime e potrebbero essere spenti.
  • Distribuzioni come la distribuzione generalizzata di valori estremi sono costruite per utilizzare i campioni per determinare le code effettive. Stimano molto meno male nella stima rispetto all'utilizzo dei valori del campione, anche se non hai abbastanza campioni per l'approccio classico.
  • Se sei robusto il soffitto è alto, ma il risultato è che non fallisci.

Buona fortuna

PS:

  • Ho sentito che alcuni progetti di ingegneria civile mirano al 98,5 ° percentile. Se avessimo calcolato il 98,5 ° percentile anziché il massimo, avremmo trovato una curva diversa con parametri diversi. Penso che dovrebbe essere costruito per una tempesta di 67 anni. L'approccio lì, imo, sarebbe quello di trovare la distribuzione per i temporali a 67 anni, quindi determinare la variazione attorno alla media e ottenere l'imbottitura in modo che sia progettata per avere successo nel 67 ° anno tempesta invece di fallire.
    1/(1-0.985)67
  • Dato il punto precedente, in media ogni 67 anni le persone civili dovrebbero ricostruire. Quindi, a pieno costo dell'ingegneria e della costruzione ogni 67 anni, vista la vita operativa della struttura civile (non so cosa sia), ad un certo punto potrebbe essere meno costoso progettare per un periodo intercorrente più lungo. Un'infrastruttura civile sostenibile è progettata per durare almeno una durata della vita umana senza guasti, giusto?

PS: più divertente - un video di YouTube (non mio)
https://www.youtube.com/watch?v=EACkiMRT0pc

Nota in calce: Coveyou, Robert R. "La generazione di numeri casuali è troppo importante per essere lasciata al caso." Probabilità applicata e metodi Monte Carlo e aspetti moderni della dinamica. Studi in matematica applicata 3 (1969): 70-111.


2
Potrei non essere abbastanza chiaro. La mia preoccupazione principale è perché usare extreme value distributionpiuttosto che the overall distributionper adattare i dati e ottenere i valori del 98,5%.
cqcn1991,

Cosa intendi per popolazione complessiva?
kjetil b halvorsen,

1
aggiornata la risposta.
EngrStudent - Ripristina Monica il

2
@EngrStudent ottima risposta, tuttavia sarebbe ancora meglio se mostrassi come EVT funziona qui meglio dell'uso della distribuzione normale oltre a fornire illustrazione.
Tim

2
Dopo aver svolto alcuni lavori di modellazione, direi che l'utilizzo della distribuzione padre è semplicemente pericoloso, poiché i dati sono pochissimi e l'estrapolazione è solo pericolosa e instabile, per la modellazione di eventi estremi. Ed è così che dovremmo usare invece la teoria EV.
cqcn1991,

7

Usi la teoria del valore estremo per estrapolare dai dati osservati. Spesso, i dati che hai semplicemente non sono abbastanza grandi da fornirti una stima ragionevole di una probabilità di coda. Prendendo l'esempio di @ EngrStudent di un evento di 1 anno su 1000: ciò corrisponde alla ricerca del quantile del 99,9% di una distribuzione. Ma se hai solo 200 anni di dati, puoi calcolare solo stime quantili empiriche fino al 99,5%.

La teoria del valore estremo ti consente di stimare il quantile del 99,9%, facendo varie ipotesi sulla forma della tua distribuzione nella coda: che è regolare, che decade con un certo schema e così via.

Potresti pensare che la differenza tra il 99,5% e il 99,9% sia minore; dopo tutto è solo lo 0,4%. Ma questa è una differenza di probabilità , e quando sei nella coda, può tradursi in un'enorme differenza nei quantili . Ecco un esempio di come appare una distribuzione gamma, che non ha una coda molto lunga. La linea blu corrisponde al quantile del 99,5% e la linea rossa è il quantile del 99,9%. Mentre la differenza tra queste è minuscola sull'asse verticale, la separazione sull'asse orizzontale è sostanziale. La separazione aumenta solo per le distribuzioni veramente a coda lunga; la gamma è in realtà un caso abbastanza innocuo.

inserisci qui la descrizione dell'immagine


La tua risposta è errata Il punto del 99,9% di un normale annuo muore non corrisponde a un evento di 1 su 1000 anni. Il massimo di 1000 normali ha una distribuzione diversa. Penso che sia affrontato in altre risposte.
Mark L. Stone,

@ MarkL.Stone In nessun posto ho detto nulla sul massimo di 1000 normali.
Hong Ooi,

1
Questo è esattamente il mio punto. L'evento 1 in 1000 anni dovrebbe essere basato sul massimo di 1000 all'anno normale. Questo è molto diverso dal punto di 99,9 $ su un normale annuale. Vedi il mio commento alla risposta di Karel Macek di seguito.
Mark L. Stone,

@ MarkL.Stone Il punto del grafico è solo per mostrare che quando sei nella coda, piccoli cambiamenti nelle probabilità corrispondono a grandi cambiamenti nei quantili. È possibile sostituire il quantile al 99% di un GEV, un GPD o qualsiasi altra distribuzione. (E non ho nemmeno menzionato la distribuzione normale.)
Hong Ooi,

Inoltre, stimare i massimi tramite GEV è solo un modo per ottenere i quantili di coda. L'altro modo è stimare i quantili direttamente tramite GPD (ipotizzando una distribuzione dalla coda pesante).
Hong Ooi,

7

Se sei interessato solo a una coda, ha senso concentrare la tua raccolta di dati e le tue analisi sulla coda. Dovrebbe essere più efficiente farlo. Ho sottolineato la raccolta di dati perché questo aspetto viene spesso ignorato quando si presenta un argomento per le distribuzioni EVT. In effetti, potrebbe essere impossibile raccogliere i dati rilevanti per stimare ciò che si chiama una distribuzione globale in alcuni campi. Spiegherò più in dettaglio di seguito.

Se stai osservando 1 in 1000 anni di inondazione come nell'esempio di @ EngrStudent, quindi per costruire il corpo della distribuzione normale hai bisogno di molti dati per riempirlo di osservazioni. Potenzialmente hai bisogno di ogni alluvione che si è verificata negli ultimi centinaia di anni.

Ora fermati un secondo e pensi a cosa è esattamente un diluvio? Quando il mio cortile è allagato dopo una forte pioggia, è un diluvio? Probabilmente no, ma dov'è esattamente la linea che delinea un'inondazione da un evento che non è un'alluvione? Questa semplice domanda evidenzia il problema con la raccolta dei dati. Come puoi assicurarci di raccogliere tutti i dati sul corpo seguendo lo stesso standard per decenni o forse addirittura secoli? È praticamente impossibile raccogliere i dati sul corpo della distribuzione delle alluvioni.

Quindi, non è solo una questione di efficienza di analisi , ma una questione di fattibilità dei dati di raccolta : se modellare l'intera distribuzione o solo una coda?

Naturalmente, con le code la raccolta dei dati è molto più semplice. Se definiamo la soglia abbastanza alta per quella che è un'enorme inondazione , allora possiamo avere maggiori probabilità che tutti o quasi tutti questi eventi vengano probabilmente registrati in qualche modo. È difficile perdere un'alluvione devastante e se c'è qualche tipo di civiltà presente, ci sarà un po 'di memoria salvata sull'evento. Quindi ha senso costruire gli strumenti analitici che si concentrano specificamente sulle code, dato che la raccolta dei dati è molto più solida su eventi estremi piuttosto che su eventi non estremi in molti campi come gli studi di affidabilità.


+1 Punti interessanti e convincenti, soprattutto nelle osservazioni alla fine.
whuber

(+1) Relativo all'ultimo punto (memoria conservata), l' effetto Sadler può essere di interesse.
GeoMatt22,

@ GeoMatt22, questa è la prima volta che vedo la carta e il termine dell'effetto Sadler. Grazie per il link
Aksakal,

Questo è un punto davvero eccellente. È un sistema, quindi un approccio sistemico può avere un rendimento eccellente. La migliore analisi al mondo può essere avvelenata con dati spazzatura. Un'analisi abbastanza semplice, se alimentata con buoni dati, può avere grandi risultati. Punti buoni!
EngrStudent - Ripristina Monica

6

Di solito, la distribuzione dei dati sottostanti (ad esempio, velocità del vento gaussiana) è per un singolo punto campione. Il 98o percentile ti dirà che per ogni punto selezionato casualmente esiste una probabilità del 2% che il valore sia maggiore del 98o percentile.

Non sono un ingegnere civile, ma immagino che ciò che vorresti sapere non è la probabilità che la velocità del vento in un dato giorno sia superiore a un certo numero, ma la distribuzione della più grande raffica possibile sopra, diciamo, il corso dell'anno. In quel caso, se i massimi raffiche di vento giornaliere sono, per esempio, distribuiti esponenzialmente, allora quello che vuoi è la distribuzione della raffica di vento massima per 365 giorni ... questo è ciò che la distribuzione di valori estremi doveva risolvere.


1

L'uso del quantile semplifica ulteriormente il calcolo. Gli ingegneri civili possono sostituire il valore (velocità del vento, ad esempio) nelle loro formule di primo principio e ottengono il comportamento del sistema per quelle condizioni estreme che corrispondono al quantile del 98,5%.

L'uso dell'intera distribuzione potrebbe sembrare fornire maggiori informazioni, ma complicherebbe i calcoli. Tuttavia, potrebbe consentire l'uso di approcci avanzati di gestione del rischio che bilancino in modo ottimale i costi relativi a (i) la costruzione e (ii) il rischio di guasto.


Beh ... potrei non essere abbastanza chiaro. Voglio solo sapere perché usare la teoria del valore estremo piuttosto che la distribuzione generale (l'intera distribuzione?) Che normalmente usiamo?
cqcn1991,

1
Se la funzione di distribuzione cumulativa per una sola istanza, come la velocità del vento massima giornaliera, è F (x), la funzione di distribuzione cumulativa per il massimo di n istanze indipendenti (ad esempio, n = 365 per un anno con la velocità del vento massima giornaliera ) è F ^ n (x). Questo è diverso da F (x).
Mark L. Stone,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.