Ridimensionare la variabile come dati di conteggio - corretta o no?

In questo articolo (disponibile gratuitamente tramite PubMed central), gli autori usano la regressione binomiale negativa per modellare il punteggio su uno strumento di screening da 10 elementi con punteggio 0-40. Questa procedura presuppone i dati di conteggio, il che chiaramente non è il caso qui. Vorrei le tue opinioni sull'accettabilità di questo approccio, perché a volte utilizzo lo stesso strumento o strumenti simili nel mio lavoro. Altrimenti, vorrei sapere se ci sono alternative accettabili. Maggiori dettagli di seguito:

La scala utilizzata è l'Audhol Use Disorders Identification Test (AUDIT), un questionario di 10 articoli progettato come strumento di screening per il disturbo da consumo di alcol e il consumo di bevande pericolose / dannose. Lo strumento ha un punteggio da 0 a 40 e i risultati sono in genere fortemente inclinati a sinistra.

Per quanto ne so, l'utilizzo dei dati di conteggio presuppone che tutti i valori "contati" siano indipendenti l'uno dall'altro - pazienti che vengono ogni giorno in un reparto di emergenza, numero di vittime in un determinato gruppo, ecc. - sono tutti indipendenti l'uno dall'altro, sebbene dipendente dalle variabili sottostanti. Inoltre, penso che non ci possa essere un conteggio massimo consentito quando si usano i dati di conteggio, anche se penso che questa ipotesi possa essere attenuata quando il massimo teorico è molto alto rispetto al massimo osservato nei dati?

Quando si utilizza la scala AUDIT, non abbiamo un conteggio vero. Abbiamo 10 articoli con un punteggio totale massimo di 40, anche se in pratica si vedono raramente punteggi più alti. I punteggi sugli articoli sono naturalmente correlati tra loro.

Le ipotesi richieste per utilizzare i dati di conteggio sono pertanto violate. Ma è ancora un approccio accettabile? Quanto sono gravi le violazioni delle ipotesi? Ci sono alcune circostanze in cui questo approccio può essere considerato più accettabile? Esistono alternative a questo approccio che non comportano la riduzione della variabile di scala in categorie?

regression negative-binomial count-data

— JONB
fonte

Risposte:

Lo strumento AUDIT è essenzialmente una scala Likert. Una serie di domande (articoli di Likert), con risposte spesso su una scala di cinque punti, è progettata per affrontare alcuni fenomeni di fondo. La somma delle risposte all'insieme di domande, la scala di Likert, viene quindi utilizzata come misura del fenomeno sottostante. Sebbene gli articoli di Likert siano spesso su una scala di "fortemente in disaccordo" per "essere fortemente d'accordo", l'applicazione per misurare una tendenza verso " A lcohol U se D ordorders" in questo " I dentification T est" è semplice.

Come osservato nella pagina Wikipedia della scala Likert , "Se i singoli articoli Likert possano essere considerati come dati a livello di intervallo o se debbano essere trattati come dati categorici ordinati è oggetto di notevole disaccordo in letteratura, con forti convinzioni su cosa sono i metodi più applicabili. " Questa disputa probabilmente risale alla maggior parte degli oltre 80 anni da quando Likert ha proposto per la prima volta la scala: ogni passo lungo la scala è equivalente, sia all'interno che tra gli elementi che compongono la scala? Il problema è stato risolto su Cross Validated, come nelle risposte a questa domanda , una delle prime domande poste su questo sito.

Se si accetta l'idea che la scala abbia passaggi uniformi (o abbastanza vicini da uniformi per l'applicazione a portata di mano, forse calcolati come media aggiungendo 10 elementi diversi, come in AUDIT), sono possibili diversi approcci all'analisi. Uno è considerare la risposta sulla scala come una serie di passi scelti o non scelti per salire sulla scala, con la stessa probabilità di salire su ciascuno dei passi.

Ciò consente di pensare ai " dati della scala L-nert di N-point come a prove di un processo binomiale ", come in una domanda del 2010 di @MikeLawrence. Sebbene le risposte a questa domanda non fossero terribilmente favorevoli a quell'idea, non è stato difficile trovare oggi uno studio del 2014 che ha usato ed esteso con successo questo approccio per distinguere le sottopopolazioni con diverse probabilità binomiali. Sebbene un processo binomiale sia spesso usato per modellare i dati di conteggio, può quindi essere usato per modellare il numero, il conteggio dei passi che un individuo ha intrapreso sulla scala dei "Disturbi dell'uso di alcol".

Come ha notato @Scortchi in una risposta alla domanda collegata nel secondo paragrafo, una limitazione del modello binomiale è che impone una relazione particolare tra la media e la varianza della risposta. Il binomio negativo rimuove tale restrizione, con perdita della facile interpretazione fornita dal semplice modello binomiale. Nell'analisi, il parametro aggiuntivo che deve essere adattato utilizza solo un ulteriore grado di libertà. Al contrario, tentare di specificare diverse probabilità per ciascuno dei 40 passaggi dell'elemento Likert e la loro somma nella scala Likert sarebbe scoraggiante.

Come notato da @MatthewGraves nella sua risposta a questa domanda, se il modello binomiale negativo è appropriato si ottiene una migliore risposta esaminando i residui. Nello studio originale che ha sviluppato AUDIT, un valore di 8 o più su una scala di 40 punti aveva una ragionevole specificità e sensibilità per distinguere quelli diagnosticati per "uso di alcol pericoloso o dannoso" in 6 diversi paesi. Quindi forse sarebbe meglio un modello binomiale a due popolazioni basato su popolazioni ad alto e basso rischio, simile allo studio del 2014 sopra menzionato.

Chi è interessato ad AUDIT in particolare dovrebbe esaminare quello studio originale. Ad esempio, sebbene la necessità di un drink mattutino possa sembrare misurare qualcosa di completamente diverso dalla frequenza del bere, come ipotizzato da @SeanEaster, il consumo mattutino ha una correlazione media ponderata di 0,73 con una scala di misure di assunzione di alcol. (Questo risultato non è sorprendente per qualcuno che ha avuto amici con disturbi del consumo di alcol.) L'AUDIT sembra essere un buon esempio dei compromessi necessari per sviluppare uno strumento che può essere usato in modo affidabile in più culture.

— EdM
fonte

Grazie per una buona risposta Quando osservo i miei dati AUDIT su oltre 20000 individui, la forma sembra vicina a una distribuzione binomiale negativa, quindi potrebbe essere ragionevole usare quell'ipotesi distributiva, o forse potrebbe essere usato un modello quasi-poisson? Se utilizziamo una distribuzione binomiale considerando i punti come k successi su 40 prove di bernoulli, non avremmo un problema serio con la sovradispersione? Sembra così nei miei dati. Il quasi binomio potrebbe essere un'alternativa?

— JonB

Molto dipende dal motivo per cui si stanno modellando i punteggi AUDIT 0-40 e dall'interpretazione euristica che si desidera inserire nei risultati. Se tutto ciò che desideri è una relazione dei punteggi AUDIT con altre variabili, con una interpretazione limitata dei valori dei parametri di distribuzione stessi, usa una distribuzione che fornisca residui ben educati; i tuoi suggerimenti sono ragionevoli. Adattare un singolo binomio ai dati è problematico, ma una combinazione di 2 binomi (gruppi ad alto e basso rischio) con differenti p potrebbe essere informativa. Usa il tuo giudizio basato sulla tua conoscenza della materia.

— EdM

La distribuzione binomiale negativa è preferita per eventi discreti "contagiosi". Una distribuzione di Poisson viene utilizzata quando gli eventi discreti sono indipendenti. Queste distribuzioni sono anche abbastanza facili da troncare , in sostanza sostituendo il punto con un punto . $x=40$ $x\ge 40$

Come commento generale, diversi gusti di regressione hanno priorità diverse per parametri (cioè regolarizzazione) e diversi modelli di rumore. La regressione dei minimi quadrati standard ha un modello di rumore gaussiano, la regressione binomiale negativa ha un modello di rumore binomiale negativo e così via. Il vero test per stabilire se un modello di regressione è appropriato è se il rumore residuo ha o meno la distribuzione prevista.

Quindi puoi applicare la regressione binomiale negativa ai tuoi dati, calcolare i residui e quindi tracciarli su un diagramma di probabilità binomiale negativo e avere un'idea dell'opportunità o meno del modello. Se il rumore è strutturato in qualche altro modo, allora dobbiamo cercare un modello di rumore che si adatti a quella struttura più da vicino.

Il ragionamento dal modello generativo alla struttura del rumore è utile - se sappiamo che i dati sono moltiplicativi anziché additivi, ad esempio, raggiungiamo il lognormale invece del normale - ma se il modello generativo atteso e la struttura del rumore non sono d'accordo, andare con i dati, non le aspettative.

— Matthew Graves
fonte

Interessante, non sapevo che gli eventi potessero essere "contagiosi". Cosa intendi sostituendo x = 40 con x> = 40, in pratica? Come faccio un diagramma di probabilità binomiale negativo in R? Suppongo che non intendi i residui della trama rispetto ai valori adattati? Intendi una trama QQ?

— JonB,

@JonB Supponiamo di avere un binomio negativo con r = 1 e probabilità di successo p = .9. La probabilità di sopravvivere esattamente a 40 prove è dello 0,148%; la probabilità di sopravvivere a 40 o più prove è dell'1,48%. Quindi si può definire una probabilità ben formata sul dominio [0,40] usando il binomio negativo per [0,39] e quindi impostando [40] in modo che si sommi a uno, che a causa della distribuzione binomiale negativa è ben- formato è la probabilità che sia 40 o più.

— Matthew Graves,

@JonB Esatto, intendo come una trama QQ. Non l'ho mai fatto in R prima, ma spero che questo link possa aiutare.

— Matthew Graves,

Ho fatto un esperimento su alcuni dati con i punteggi AUDIT. Quando si crea un diagramma qq, è necessario creare un vettore casuale di risultati da una distribuzione binomiale negativa. Il mu / theta è dato dal mio modello di regressione, ma come posso sapere quale "dimensione" usare? Mi dispiace se questa è una domanda specifica R .. Comunque, hai un bel riferimento I che posso leggere di più sull'applicazione del binomio negativo (e altre distribuzioni) a questo tipo di scale costruite sommando diversi elementi che misurano il tipo dello stesso processo?

— JonB,

Ho fatto alcuni esperimenti aggiuntivi ora. Ho simulato un set di dati con due variabili: xey. Il 50% è x = 0, il 50% è x = 1. Quelli che sono x = 0 hanno una probabilità 0,2 per y = 1 e quelli che sono x = 1 hanno una probabilità 0,4 per y = 1. Ho quindi eseguito una regressione logistica e ho dato un'occhiata ai residui. Non sembrano affatto distribuiti binomialmente. Di fatto, assumono (ovviamente) 4 valori specifici. Sei sicuro che il modello residuo dovrebbe sempre corrispondere all'assunto distributivo? Perché in questo caso, è chiaramente sbagliato.

— JonB,