Residui per regressione logistica e distanza di Cook


10
  1. Ci sono ipotesi particolari riguardo agli errori di regressione logistica come la costante variazione dei termini di errore e la normalità dei residui?

  2. Inoltre, in genere quando hai punti che hanno una distanza di Cook maggiore di 4 / n, li rimuovi? Se li rimuovi, come puoi sapere se il modello con i punti rimossi è migliore?

Risposte:


12

Non so se posso darti una risposta completa, ma posso darti alcuni pensieri che potrebbero essere utili. Innanzitutto, tutti i modelli / test statistici hanno ipotesi. Tuttavia, la regressione logistica non presuppone che i residui siano normalmente distribuiti né che la varianza sia costante. Piuttosto, si presume che i dati siano distribuiti come binomiale, , cioè con un numero di prove di Bernoulli pari al numero di osservazioni in quell'esatto set di valori di covariata e con la probabilità associata a quell'insieme di valori di covariata. Ricorda che la varianza di un binomio è . Pertanto, se ilB(nxi,pxi)np(1p)nVaria a diversi livelli della covariata, anche le varianze. Inoltre, se una qualsiasi delle covariate è affatto correlata alla variabile di risposta, allora le probabilità varieranno e quindi anche le varianze. Questi sono fatti importanti sulla regressione logistica.

In secondo luogo, i confronti tra modelli vengono generalmente eseguiti tra modelli con specifiche diverse (ad esempio, con diversi set di covariate inclusi), non su diversi sottoinsiemi di dati. Ad essere sincero, non sono sicuro di come sarebbe stato fatto correttamente. Con un modello lineare, si poteva guardare i 2 s per vedere quanto meglio l'adattamento è con i dati aberranti esclusi, ma questo sarebbe solo essere descrittivo, e si dovrebbe sapere che sarebbe avere a salire. Con la regressione logistica , tuttavia, non è possibile utilizzare lo standard . Esistono vari 'pseudo-R2R2R2R2sono stati sviluppati per fornire informazioni simili, ma sono spesso considerati imperfetti e non vengono spesso utilizzati. Per una panoramica dei diversi pseudo- s esistenti, vedere qui . Per alcune discussioni e critiche, vedi qui . Un'altra possibilità potrebbe essere quella di afferrare i beta con e senza gli outlier inclusi per vedere come l'esclusione di essi contribuisce a stabilizzare le loro distribuzioni di campionamento. Ancora una volta, questo sarebbe solo descrittivo (cioè, non costituirebbe un test per dirti quale modello - er, sottoinsieme dei tuoi dati - preferire) e la varianza dovrebbe scendere. Queste cose sono vere, per entrambi pseudo-R2R2se le distribuzioni jackknifed, perché hai selezionato quei dati da escludere in base al fatto che appaiono estremi.


8

1) Esistono ipotesi particolari relative agli errori di regressione logistica come la costante variazione dei termini di errore e la normalità dei residui?

I modelli di regressione logistica non hanno "errori" in senso tradizionale. È contro-intuitivo e metodologicamente incoerente. I risultati del modello sono probabilità o rischi adeguati, mentre i risultati osservati sono indicatori di eventi 0/1. Metodologicamente, si tende a sottovalutare i domini con probabilità adattate molto alte o molto basse (contribuendo con quantità molto ridotte alla distanza residua) mentre l'algoritmo di adattamento del modello attribuisce un'importanza considerevolmente maggiore a tali regioni. La distanza quadrata è generalmente un modo mediocre di calibrare un modello di regressione logistica.

Un'alternativa al test di adattamento è il test di Hosmer-Lemeshow in cui vengono utilizzati i valori adattati per creare partizioni binnate basate su decile del rischio adattato. Puoi leggere questo test nell'analisi dei dati categorici di Alan Agresti o nel libro Regressione logistica di Hosmer e Lemeshow. Un altro processo consiste nell'utilizzare i Residui studentizzati in cui viene utilizzata la relazione di varianza media per ripesare i residui mediante la loro varianza inversa adattata . Per la regressione logistica questo è

rstud=Yμμ(1μ)

2) In genere anche quando hai punti che hanno una distanza di Cook maggiore di 4 / n, li rimuovi? Se li rimuovi, come puoi sapere se il modello con i punti rimossi è migliore?

Non rimuovo mai i punti in base alle analisi di sensibilità. Se faccio un campione casuale di 100 persone e il loro reddito e 1 persona sembra essere un miliardario, allora la mia ipotesi più sicura è che 1 miliardario rappresenti 1/100 della popolazione.


Perché pensi che il miliardario rappresenti 1/100 della popolazione? Probabilmente saresti in grado di ottenere una stima esterna della percentuale di miliardari nella popolazione!
kjetil b halvorsen,

6

Concordo con il commento di AdamO sopra in generale, supponendo che 1 miliardario rappresenti 1/100 della popolazione sia del tutto soddisfacente. Tuttavia, se la presenza del miliardario distorce i dati al punto da compromettere la previsione per le altre 99 persone, rimuoverei il miliardario. Preferirei sbagliarmi con la previsione di un valore anomalo rispetto a tutti gli altri.

Detto questo, se si rimuovono i punti dati utilizzando i valori D di Cook (ovvero qualsiasi cosa> 4 / df), è possibile utilizzare l'area sotto le curve ROC per entrambi i modelli per verificare il miglioramento.


1
(+1) Modellare la relazione tra le probabilità logaritmiche di risposta e reddito con una spline naturale, forse trasformando in anticipo il reddito, è un altro modo per evitare eccessivamente le previsioni che influenzano il miliardario per gli altri. Rimuoverlo suggerisce che sei felice di non fare previsioni per altri miliardari (abbastanza equo) piuttosto che felice di fare previsioni sbagliate su di loro.
Scortchi - Ripristina Monica

Ironia della sorte, quando si tratta di predire eventi binari, è vero che l'esclusione di osservazioni influenti può portare a una migliore calibrazione delle previsioni di rischio. Tuttavia, escludendo osservazioni influenti si ridurrà la discriminazione delle previsioni di rischio. Quest'ultimo è probabilmente più importante. Quando si tratta di prevedere il rischio di un determinato evento (che è 0 o 1, non valutato continuamente), il miglior tipo di previsione spingerà le previsioni dei casi più vicino a 1 e le previsioni dei controlli più vicino a 0. I punti ad alta influenza sono spesso efficaci nel fare questo.
AdamO,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.