Stabilità del modello nella validazione incrociata dei modelli di regressione


10

Dati i multipli di convalida incrociata di una regressione logistica e le risultanti stime multiple di ciascun coefficiente di regressione, come si dovrebbe misurare se un predittore (o un insieme di predittori) è / sono stabili e significativi in ​​base ai coefficienti di regressione ? È diverso per la regressione lineare?


@BGreene Molto intelligente. Perché non pubblicarlo come risposta? Mi stai anche chiedendo se l'ensemble che impara la letteratura abbia qualcosa di rilevante.
Jack Tanner,

Quando dici "convalida incrociata multipla", intendi che esegui volte una convalida incrociata volte ? mk
boscovich,

@andrea, dico "più pieghe di convalida incrociata", ovvero pieghe. k
Jack Tanner l'

Risposte:


2

È possibile trattare i coefficienti di regressione risultanti da ciascuna piega del test nel CV come osservazioni indipendenti e quindi calcolare la loro affidabilità / stabilità utilizzando il coefficiente di correlazione all'interno della classe (ICC) come riportato da Shrout & Fleiss.


0

Presumo che nella tua convalida incrociata dividi i dati in due parti, un set di addestramento e un set di test. In una piega si inserisce un modello dal set di allenamento e lo si utilizza per prevedere la risposta del set di test, giusto? Ciò fornirà un tasso di errore per l'intero modello, non per un singolo predittore.

Non so se è possibile trovare valori p per i predittori usando qualcosa come i test F usati nella normale regressione lineare.

Puoi provare a rimuovere i predittori dal modello usando ad esempio la selezione indietro o avanti se questo è il tuo obiettivo.

È possibile invece utilizzare CVstrap per trovare un intervallo di confidenza per ciascun predittore e quindi vedere quanto sia stabile.

Quante pieghe usi nel tuo CV, è una validazione incrociata unica?

Forse maggiori dettagli su quale sia il tuo obiettivo aiuterebbero a rispondere a questa domanda.


Supponiamo che questo sia un gioco da ragazzi. Ogni predittore in ogni piega ha già un intervallo di confidenza, ad esempio, da un CI posteriore bayesiano o da un errore std di glm(..., family="binomial")in R. Cosa devo fare con gli intervalli per ciascun predittore attraverso le corse di esclusione?
Jack Tanner,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.