Nella routine rpart () per creare modelli CART, si specifica il parametro di complessità su cui si desidera eliminare l'albero. Ho visto due diversi consigli per la scelta del parametro complessità:
Scegliere il parametro di complessità associato all'errore minimo possibile con convalida incrociata. Questo metodo è raccomandato da Quick-R e HSAUR.
Scegliere il parametro di maggiore complessità il cui errore di convalida incrociata stimato è ancora all'interno di una SE dell'errore di convalida incrociata minimo possibile. Questa è la mia interpretazione della documentazione del pacchetto, che dice: "Una buona scelta di cp per la potatura è spesso il valore più a sinistra per cui la media si trova sotto la linea orizzontale" in riferimento a questo diagramma .
Le due scelte di cp producono alberi abbastanza diversi nel mio set di dati.
Sembra che il primo metodo produrrà sempre un albero più complesso, potenzialmente sovradimensionato. Ci sono altri vantaggi, svantaggi, raccomandazioni in letteratura, ecc. Che dovrei prendere in considerazione quando decido quale metodo usare? Posso fornire ulteriori informazioni sul mio particolare problema di modellazione se ciò fosse utile, ma sto cercando di mantenere questa domanda abbastanza ampia da essere rilevante per gli altri.
party
pacchetto che utilizza test di significatività (di solito non è qualcosa che raccomando, ma sembra rilevante qui). Come sempre, tuttavia, il test migliore è utilità e senso; questo è particolarmente vero se sei interessato principalmente alla spiegazione.