Mi sembra che la tua domanda affronti più in generale i diversi tipi di convalida per un modello predittivo: la convalida incrociata ha un po 'più a che fare con la validità interna , o almeno la fase di modellazione iniziale, mentre disegnare collegamenti causali su una popolazione più ampia è più correlato a validità esterna. Con ciò (e come aggiornamento dopo la bella osservazione di @ Brett), intendo che di solito costruiamo un modello su un campione funzionante, assumendo un ipotetico modello concettuale (cioè specificiamo le relazioni tra predittori e il risultato (i) di interesse), e cerchiamo di ottenere stime affidabili con un tasso di errore di classificazione minimo o un errore di previsione minimo. Si spera, migliore è il rendimento del modello, migliore ci permetterà di prevedere i risultati su dati invisibili; tuttavia, CV non dice nulla sulla "validità" o sull'adeguatezza dei collegamenti causali ipotizzati. Potremmo certamente ottenere risultati decenti con un modello in cui alcuni effetti di moderazione e / o mediazione vengono trascurati o semplicemente non conosciuti in anticipo.
Il mio punto è che qualunque sia il metodo che usi per convalidare il tuo modello (e il metodo di controllo non è certamente il migliore, ma è ancora ampiamente usato nello studio epidemiologico per alleviare i problemi derivanti dalla costruzione di modelli graduale), lavori con lo stesso campione (che supponiamo sia rappresentativo di una popolazione più ampia). Al contrario, la generalizzazione dei risultati e dei collegamenti causali dedotti in questo modo a nuovi campioni o ad una popolazione plausibilmente correlata viene di solito effettuata da studi di replicazione . Questo ci consente di testare in sicurezza l'abilità predittiva del nostro modello in una "superpopolazione" che presenta una gamma più ampia di variazioni individuali e può presentare altri potenziali fattori di interesse.
Il tuo modello potrebbe fornire previsioni valide per il tuo campione di lavoro e include tutti i potenziali confonditori a cui potresti aver pensato; tuttavia, è possibile che non funzionerà altrettanto bene con i nuovi dati, solo perché nel percorso causale intermedio compaiono altri fattori che non sono stati identificati durante la creazione del modello iniziale. Ciò può accadere se alcuni dei predittori e i collegamenti causali da essi dedotti dipendono dal particolare centro di sperimentazione in cui i pazienti sono stati reclutati, ad esempio.
Nell'epidemiologia genetica, molti studi di associazione su tutto il genoma non riescono a replicarsi solo perché stiamo cercando di modellare malattie complesse con una visione semplificata delle relazioni causali tra marcatori di DNA e fenotipo osservato, mentre è molto probabile che gene-gene (epistasi), malattie genetiche (pleiotropia), ambiente genico e sottostruttura della popolazione entrano in gioco, ma si vedano ad esempio la convalida, il potenziamento e il perfezionamento dei segnali di associazione a livello del genoma(Ioannidis et al., Nature Reviews Genetics, 2009 10). Quindi, possiamo costruire un modello performante per tenere conto delle variazioni incrociate osservate tra un insieme di marcatori genetici (con dimensioni dell'effetto molto basse e sparse) e un modello multivariato di fenotipi osservati (ad esempio, volume di sostanza bianca / grigia o attività localizzate nel cervello osservate attraverso la risonanza magnetica, le risposte alla valutazione neuropsicologica o all'inventario della personalità), tuttavia non funzionerà come previsto su un campione indipendente.
Per quanto riguarda un riferimento generale su questo argomento, posso consigliare il capitolo 17 e la parte III dei modelli di previsione clinica , di EW Steyerberg (Springer, 2009). Mi piace anche il seguente articolo di Ioannidi:
Ioannidis, JPA, Perché i risultati della ricerca più pubblicati sono falsi? PLoS Med. 2005 2 (8): e124