Sto cercando di prevedere il successo o il fallimento degli studenti sulla base di alcune funzionalità con un modello di regressione logistica. Per migliorare le prestazioni del modello, ho già pensato di suddividere gli studenti in diversi gruppi sulla base di ovvie differenze e di costruire modelli separati per ciascun gruppo. Ma penso che potrebbe essere difficile identificare questi gruppi tramite esame, quindi ho pensato di dividere gli studenti raggruppandoli sulle loro caratteristiche. È una pratica comune nella costruzione di tali modelli? Mi suggeriresti di suddividerlo in gruppi evidenti (ad esempio, studenti del primo trimestre rispetto agli studenti di ritorno) e quindi eseguire il raggruppamento su tali gruppi o raggruppare dall'inizio?
Per provare a chiarire:Quello che voglio dire è che sto prendendo in considerazione l'uso di un algoritmo di clustering per spezzare il mio set di allenamento per la regressione logistica in gruppi. Farei quindi regressioni logistiche separate per ciascuno di quei gruppi. Quindi, quando si utilizza la regressione logistica per prevedere il risultato per uno studente, sceglierei quale modello utilizzare in base al gruppo in cui si adattano meglio.
Forse potrei fare la stessa cosa includendo un identificatore di gruppo, ad esempio un 1 se lo studente sta tornando e uno 0 in caso contrario.
Ora mi viene da pensare se potrebbe essere vantaggioso raggruppare il set di dati di training e utilizzare l'etichetta del cluster come funzionalità nella regressione logistica, piuttosto che creare modelli di regressione logistica separati per ogni popolazione.
Se è utile includere un identificatore di gruppo per coloro che stanno tornando studenti rispetto a nuovi studenti, potrebbe anche essere utile espandere l'elenco dei gruppi? Il clustering sembra un modo naturale per farlo.
Spero sia chiaro ...