(1) Esiste una vasta letteratura sul perché si dovrebbero preferire modelli completi a modelli ristretti / parsimoniosi. La mia comprensione sono alcuni motivi per preferire il modello parsimonioso. Tuttavia, modelli più grandi potrebbero non essere fattibili per molte applicazioni cliniche.
(2) Per quanto ne so, gli indici di discriminazione / discriminazione non sono (? Non dovrebbero essere) utilizzati come parametro di selezione modello / variabile. Non sono previsti per questo uso e di conseguenza potrebbe non esserci molta letteratura sul perché non dovrebbero essere usati per la costruzione di modelli.
(3) I modelli parsimoniosi possono avere limitazioni che non sono facilmente evidenti. Possono essere meno calibrati rispetto ai modelli più grandi, la validità esterna / interna può essere ridotta.
(4) La statistica c potrebbe non essere ottimale nella valutazione di modelli che prevedono il rischio futuro o stratificano gli individui in categorie di rischio. In questa impostazione, la calibrazione è importante per l'accurata valutazione del rischio. Ad esempio, un biomarker con un odds ratio di 3 può avere scarso effetto sul cstatistico, ma un livello aumentato potrebbe spostare il rischio cardiovascolare a 10 anni stimato per un singolo paziente dall'8% al 24%
Cook NR; Uso e uso improprio della curva ROC nella letteratura medica. Circolazione. 115 2007: 928-935.
(5) AUC / statistica c / discriminazione è insensibile alle variabili predittive significative. Questo è discusso nel riferimento Cook sopra e la forza motivante dietro lo sviluppo dell'indice di riclassificazione netta. Discusso anche in Cook sopra.
(6) I set di dati di grandi dimensioni possono comunque portare a modelli più grandi del desiderato se si utilizzano metodi di selezione delle variabili standard. Nelle procedure di selezione graduale viene spesso utilizzato un valore soglia di 0,05. Ma non c'è nulla di intrinseco in questo valore che significa che dovresti scegliere questo valore. Con set di dati più piccoli un valore p più grande (0,2) può essere più appropriato, in set di dati più grandi un valore p più piccolo può essere appropriato (per questo motivo è stato usato 0,01 per il set di dati GUSTO I).
(7) Mentre AIC viene spesso utilizzato per la selezione dei modelli ed è meglio supportato dalla letteratura, BIC può essere una valida alternativa in set di dati più grandi. Per la selezione del modello BIC il chi-quadrato deve superare il log (n), quindi si tradurrà in modelli più piccoli in set di dati più grandi. (La malva può avere caratteristiche simili)
(8) Ma se vuoi solo un massimo di 10 o 12 variabili, la soluzione più semplice è qualcosa di simile bestglm
o leaps
pacchetti dove hai appena impostato il numero massimo di variabili che vuoi considerare.
(9) se vuoi solo un test che farà sembrare i due modelli uguali e non sei troppo preoccupato per i dettagli, potresti probabilmente confrontare l'AUC dei due modelli. Alcuni pacchetti ti daranno persino un valore p per il confronto. Non sembra consigliabile.
Ambler G (2002) Semplificazione di un modello prognostico: uno studio di simulazione basato su dati clinici
Cook NR; Uso e uso improprio della curva ROC nella letteratura medica. Circolazione. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Su criteri per la valutazione di modelli di rischio assoluto. BioStat. 6 2005: 227-239.
(10) Una volta che il modello è stato costruito, gli indici c-statistici / di decimazione potrebbero non essere l'approccio migliore per confrontare i modelli e avere limitazioni ben documentate. I confronti dovrebbero probabilmente includere almeno la calibrazione, l'indice di riclassificazione.
Steyerber (2010) Valutare le prestazioni dei modelli di previsione: un quadro per alcune misure tradizionali e innovative
(11) Potrebbe essere una buona idea andare oltre e utilizzare misure analitiche di decisione.
Vickers AJ, Elkin EB. Analisi della curva di decisione: un nuovo metodo per valutare i modelli di previsione. Med Decis Making. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Utilizzo delle curve di utilità relative per valutare la previsione del rischio. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Valutazione dei marker e dei modelli di previsione dei rischi: panoramica delle relazioni tra NRI e misure analitiche. Med Decis Making. 2013; 33: 490-501
--- Aggiornamento --- Trovo l'articolo di Vickers il più interessante. Ma questo non è stato ancora ampiamente accettato nonostante molti editoriali. Quindi potrebbe non essere di grande utilità pratica. Gli articoli Cook e Steyerberg sono molto più pratici.
A nessuno piace la selezione graduale. Non ho intenzione di sostenerlo. Potrei sottolineare che la maggior parte delle critiche su stepwise presuppone EPV <50 e una scelta tra un modello completo o pre-specificato e un modello ridotto. Se EPV> 50 e vi è un impegno a ridurre il modello, l'analisi costi-benefici potrebbe essere diversa.
Il pensiero debole dietro il confronto delle c-statistiche è che potrebbero non essere diverse e mi sembra di ricordare che questo test sia significativamente sottodimensionato. Ma ora non riesco a trovare il riferimento, quindi potrebbe essere molto diverso da quello.