Di solito nella ricerca biomedica, non utilizziamo un set di formazione --- applichiamo solo la regressione logistica sull'insieme di dati completo per vedere quali predittori sono fattori di rischio significativi per il risultato che stiamo esaminando; o guardare un predittore di interesse controllando l'effetto di altri possibili predittori sul risultato.
Non sono sicuro di cosa significhi valori soglia, ma ci sono vari parametri che si possono cercare di ottimizzare: AUC, valori di cutoff per una dicotomizzazione di una variabile predittiva continua, valori predittivi positivi e negativi, intervalli di confidenza e valori p, tassi di falsi positivi e falsi negativi. La regressione logistica esamina una popolazione di soggetti e valuta la forza e la direzione causale dei fattori di rischio che contribuiscono al risultato di interesse per quella popolazione. È anche possibile "eseguirlo al contrario", per così dire, e determinare il rischio di un individuo del risultato dato i fattori di rischio che l'individuo ha. La regressione logistica assegna a ciascun individuo un rischio del risultato, in base ai suoi singoli fattori di rischio, e per impostazione predefinita è 0,5. Se un soggetto " s la probabilità di avere il risultato (in base a tutti i dati e i soggetti nel modello) è 0,5 o superiore, prevede che avrà il risultato; se inferiore a 0,5, prevede che non lo farà. Tuttavia, è possibile regolare questo livello di cutoff, ad esempio per contrassegnare più individui che potrebbero essere a rischio di avere il risultato, anche se al prezzo di avere più falsi positivi previsti dal modello. È possibile regolare questo livello di cut-off per ottimizzare le decisioni di screening al fine di prevedere quali individui sarebbero invitati ad avere un ulteriore follow-up medico, ad esempio; e per costruire il tuo valore predittivo positivo, valore predittivo negativo e tassi di falsi negativi e falsi positivi per un test di screening basato sul modello di regressione logistica. Puoi sviluppare il modello su metà del tuo set di dati e testarlo sull'altra metà, ma non Devo davvero (e così facendo dimezzerai i tuoi dati di "allenamento" e ridurrai così il potere di trovare predittori significativi nel modello). Quindi sì, puoi "addestrare tutto da capo a capo". Naturalmente, nella ricerca biomedica, si vorrebbe convalidarlo su un'altra popolazione, un altro set di dati prima di dire che i risultati possono essere generalizzati a una popolazione più ampia. Un altro approccio consiste nell'utilizzare un approccio di tipo bootstrap in cui si esegue il modello su un sottocampione della popolazione di studio, quindi sostituire tali soggetti nel pool e ripetere con un altro campione, molte volte (in genere 1000 volte). Se si ottengono risultati significativi nella maggior parte dei casi (ad es. Il 95% delle volte), il modello può essere considerato validato, almeno sui propri dati. Ma ancora una volta, minore è la popolazione dello studio su cui esegui il tuo modello, meno probabile sarà che alcuni predittori siano fattori di rischio statisticamente significativi per il risultato. Ciò è particolarmente vero per gli studi biomedici con un numero limitato di partecipanti.
Utilizzare metà dei dati per "addestrare" il modello e quindi "convalidarlo" sull'altra metà è un onere inutile. Non lo fai per i test t o la regressione lineare, quindi perché farlo con la regressione logistica? Il massimo che farà è farti dire "sì, funziona", ma se usi il tuo set di dati completo, lo decidi comunque. La suddivisione dei dati in insiemi di dati più piccoli comporta il rischio di non rilevare significativi fattori di rischio nella popolazione dello studio (O la popolazione di validazione) quando sono effettivamente presenti, a causa delle dimensioni ridotte del campione, con troppi predittori per la dimensione dello studio e la possibilità che il tuo "campione di validazione" non mostrerà alcuna associazione solo per caso. La logica alla base dell'approccio "treno quindi convalida" sembra essere che se i fattori di rischio identificati come significativi non sono abbastanza forti, quindi non saranno statisticamente significativi se modellati su una metà dei dati scelti casualmente. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. essere statisticamente significativo se modellato su una metà dei dati scelti casualmente. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. essere statisticamente significativo se modellato su una metà dei dati scelti casualmente. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. Ma quel campione scelto casualmente potrebbe non mostrare alcuna associazione solo per caso, o perché è troppo piccolo perché il / i fattore / i di rischio sia statisticamente significativo. Ma è l'entità del / i fattore / i di rischio / i e il loro significato statistico che determinano la loro importanza e per questo motivo è meglio usare il tuo set di dati completo per costruire il tuo modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. s l'entità del / i fattore / i di rischio E il loro significato statistico che ne determinano l'importanza e per questo motivo è meglio utilizzare il set di dati completo per costruire il modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio. s l'entità del / i fattore / i di rischio E il loro significato statistico che ne determinano l'importanza e per questo motivo è meglio utilizzare il set di dati completo per costruire il modello. Il significato statistico diventerà meno significativo con campioni di dimensioni inferiori, come accade con la maggior parte dei test statistici. Fare regressione logistica è un'arte quasi quanto una scienza statistica. Esistono diversi approcci da utilizzare e parametri diversi da ottimizzare a seconda del progetto dello studio.