Non so se posso darti una risposta completa, ma posso darti alcuni pensieri che potrebbero essere utili. Innanzitutto, tutti i modelli / test statistici hanno ipotesi. Tuttavia, la regressione logistica non presuppone che i residui siano normalmente distribuiti né che la varianza sia costante. Piuttosto, si presume che i dati siano distribuiti come binomiale, , cioè con un numero di prove di Bernoulli pari al numero di osservazioni in quell'esatto set di valori di covariata e con la probabilità associata a quell'insieme di valori di covariata. Ricorda che la varianza di un binomio è . Pertanto, se ilB(nxi,pxi)np(1−p)nVaria a diversi livelli della covariata, anche le varianze. Inoltre, se una qualsiasi delle covariate è affatto correlata alla variabile di risposta, allora le probabilità varieranno e quindi anche le varianze. Questi sono fatti importanti sulla regressione logistica.
In secondo luogo, i confronti tra modelli vengono generalmente eseguiti tra modelli con specifiche diverse (ad esempio, con diversi set di covariate inclusi), non su diversi sottoinsiemi di dati. Ad essere sincero, non sono sicuro di come sarebbe stato fatto correttamente. Con un modello lineare, si poteva guardare i 2 s per vedere quanto meglio l'adattamento è con i dati aberranti esclusi, ma questo sarebbe solo essere descrittivo, e si dovrebbe sapere che sarebbe avere a salire. Con la regressione logistica , tuttavia, non è possibile utilizzare lo standard . Esistono vari 'pseudo-R2R2R2R2sono stati sviluppati per fornire informazioni simili, ma sono spesso considerati imperfetti e non vengono spesso utilizzati. Per una panoramica dei diversi pseudo- s esistenti, vedere qui . Per alcune discussioni e critiche, vedi qui . Un'altra possibilità potrebbe essere quella di afferrare i beta con e senza gli outlier inclusi per vedere come l'esclusione di essi contribuisce a stabilizzare le loro distribuzioni di campionamento. Ancora una volta, questo sarebbe solo descrittivo (cioè, non costituirebbe un test per dirti quale modello - er, sottoinsieme dei tuoi dati - preferire) e la varianza dovrebbe scendere. Queste cose sono vere, per entrambi pseudo-R2R2se le distribuzioni jackknifed, perché hai selezionato quei dati da escludere in base al fatto che appaiono estremi.