Sì, è possibile equipaggiare eccessivamente i modelli di regressione logistica. Ma prima, vorrei affrontare il punto sull'AUC (Area sotto la curva caratteristica operativa del ricevitore): non ci sono regole empiriche universali con l'AUC, mai e poi mai.
Che cos'è l'AUC è la probabilità che un positivo (o caso) campionato in modo casuale abbia un valore di marcatore più alto di un negativo (o controllo) perché l'AUC è matematicamente equivalente alla statistica U.
Ciò che l'AUC non è una misura standardizzata di precisione predittiva. Gli eventi altamente deterministici possono avere AUC a predittore singolo pari o superiori al 95% (come nella meccatronica controllata, robotica o ottica), alcuni modelli complessi di previsione del rischio logistico multivariabile hanno AUC del 64% o inferiori come la previsione del rischio di cancro al seno, e quelli sono livelli di accuratezza predittiva notevolmente elevati.
Un valore AUC ragionevole, come con un'analisi di potenza, è prespecificato raccogliendo la conoscenza del background e degli obiettivi di uno studio apriori . Il medico / ingegnere descrive ciò che vogliono e tu, lo statistico, risolvi un valore AUC target per il tuo modello predittivo. Quindi inizia l'indagine.
È infatti possibile sovrautilizzare un modello di regressione logistica. A parte la dipendenza lineare (se la matrice del modello è di rango carente), puoi anche avere una concordanza perfetta, ovvero che la trama dei valori adattati rispetto a Y discrimina perfettamente casi e controlli. In tal caso, i tuoi parametri non sono convergenti ma risiedono semplicemente da qualche parte nello spazio limite che dà una probabilità di . A volte, tuttavia, l'AUC è 1 solo per caso.∞
2βp≫nπ(1−π)π=Prob(Y=1)p previsione ad ) dei risultati binari viene eseguita meglio con i metodi di apprendimento automatico. Comprendere l'analisi discriminante lineare, i minimi quadrati parziali, la previsione del vicino più vicino, il potenziamento e le foreste casuali sarebbe un ottimo punto di partenza.