Selezione del modello originale (?) Con CV piega a k


9

Quando utilizzo CV di k-fold per selezionare tra i modelli di regressione, di solito computo l'errore CV separatamente per ciascun modello, insieme al suo errore standard SE, e seleziono il modello più semplice entro 1 SE dal modello con l'errore CV più basso (il 1 regola di errore standard, vedere ad esempio qui ). Tuttavia, recentemente mi è stato detto che in questo modo sto sopravvalutando la variabilità e che nel caso specifico della selezione tra due modelli A e B, dovrei davvero procedere in un modo diverso:

  • per ogni piega di lunghezza , calcola le differenze puntuali tra le previsioni dei due modelli, quindi calcola la differenza quadrata media per la piegaKNK
    MSDK=Σio=1NK(y^UNio-y^Bio)2NK
  • medio attraverso le pieghe come al solito e usa questo errore di differenza CV (insieme al suo errore standard) come stimatore per l'errore di generalizzazione.MSDK

Domande:

  1. Questo ha senso per te? So che ci sono ragioni teoriche dietro l'uso dell'errore CV come uno stimatore dell'errore di generalizzazione (non so quali sono questi motivi, ma so che esistono!). Non ho idea se ci siano ragioni teoriche dietro l'uso di questo errore CV "differenza".
  2. Non so se questo possa essere generalizzato ai confronti di più di due modelli. Il calcolo delle differenze per tutte le coppie di modelli sembra rischioso (confronti multipli?): Cosa faresti se avessi più di due modelli?

EDIT: la mia formula è totalmente sbagliata, la metrica corretta è descritta qui ed è molto più complicata. Bene, sono felice di averlo chiesto qui prima di applicare la formula in modo accecante! Ringrazio @Bay per avermi aiutato a capire con la sua risposta illuminante. La misura corretta descritta è piuttosto sperimentale, quindi mi atterrò al mio cavallo di lavoro fidato, l'errore CV!

Risposte:


2

MSDK

Ad esempio, potrei inventare una coppia stupida di predittori:

y^UN(X,θ)=1+X,1θ

y^B(X,θ): =1+X,1θ2

θMSDK

MSDKMSDK


Risposta al commento OP

La formula presentata nel tuo commento richiede un po 'di contesto:

  1. È una misura bayesiana di accuratezza, in quanto eldd è la densità predittiva logaritmica prevista - piuttosto un boccone, ma fondamentalmente, è la somma dei valori attesi del logaritmo della densità predittiva posteriore valutata in ciascun punto di dati in base a un predittivo precedente densità stimata usando la validazione incrociata.
  2. La misura di cui sopra (elpd) viene calcolata utilizzando la validazione incrociata con un criterio one-out, in cui la densità predittiva viene presa nel punto omesso.
  3. Quello che sta facendo la loro formula (19) è calcolare l'errore standard della differenza nella precisione predittiva (misurata usando elpd) tra due modelli. L'idea è che la differenza tra elpd è asintoticamente normale, quindi l'errore standard ha un significato inferenziale (e può essere usato per testare se la differenza sottostante è zero), oppure il modello A ha un errore di previsione più piccolo del modello B.

Quindi, ci sono molte parti mobili in questa misura: è necessario aver eseguito un algoritmo di campionamento MCMC per ottenere punti dalla densità dei parametri posteriori. È quindi necessario integrarlo per ottenere densità predittive. Quindi è necessario prendere i valori previsti di ciascuno di questi (su molti sorteggi). È piuttosto un processo, ma alla fine dovrebbe dare un utile errore standard.

Nota: nel terzo paragrafo completo sotto l'equazione (19), gli autori affermano che sono necessarie ulteriori ricerche per determinare se questo approccio funziona bene per il confronto tra modelli ... quindi, non è ancora ben testato (altamente sperimentale). Pertanto, stai sostanzialmente confidando nell'utilità di questo metodo fino a quando gli studi di follow-up non verificheranno che identifichi in modo affidabile il modello migliore (in termini di elpd ).


Se(elpd^LOOUN-elpd^LOOB)

@DeltaIV Ok ... controllerò la sezione di riferimento e proverò a decomprimere quella formula per te.

1
@DeltaIV ok, ho avuto una modifica da rivedere. Ho ampliato il mio post. Questo sembra essere un metodo molto sperimentale (e non verificato) per confrontare due modelli di predizione. Starei attento a usarlo a meno che tu non possa verificarne le prestazioni con i tuoi studi Monte Carlo (ad esempio, può scegliere il modello più predittivo quando conosci la risposta giusta?).
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.