Quando confrontiamo gruppi su variabili di controllo dovremmo usare test di equivalenza?


13

In molti articoli che considerano trattamenti e risultati, vedo tabelle (di solito "tabella 1") di quelle che potrebbero essere chiamate variabili fastidiose (spesso dati demografici, a volte condizioni mediche) con test di significatività e testi come "i gruppi erano sostanzialmente simili, lì non c'erano differenze significative su XXXXX, vedere la tabella ". Quindi l'obiettivo chiaro è mostrare che i gruppi assegnati a diversi trattamenti sono simili.

Tuttavia, questo mi sembra che potrebbe essere "accettare il nulla" e che ciò che dovremmo fare (o esigere di essere fatto) sono i test di equivalenza.

Questo potrebbe applicarsi a studi randomizzati o studi osservazionali. Mi sto perdendo qualcosa qui?


1
Ho capito che ti riferisci alla "tabella 1". Stai chiedendo di RCT di per sé, o anche studi osservazionali?
gung - Ripristina Monica

@gung sì, di solito è la tabella 1. Potrebbe essere studi osservazionali o RCT. Ho modificato la mia domanda per riflettere il tuo commento.
Peter Flom - Ripristina Monica

1
Anche se corro il rischio di affermare l'ovvio: ci sono alcuni documenti che affrontano questo problema (ad esempio de Boer et al. (2015) ). Penso che il consesus sia che i test di ipotesi dovrebbero essere abbandonati nelle tabelle di base. La Dichiarazione CONSORT per gli studi clinici e la Dichiarazione STROBE per gli studi osservazionali raccomandano di evitare il test di ipotesi nelle tabelle di base. Se i test di equivalenza sono migliori, non lo so.
COOLSerdash

Il fatto che si esegua il test contro null o il test di equivalenza dipende dalla motivazione e influisce sulla discussione che è possibile trarre dalla tabella. Affermare l'equivalenza è una condizione molto forte e sospetto che non sia necessario nella maggior parte dei casi a meno che l'autore non voglia trarre conclusioni forti sui dati demografici ecc. Sarebbe meglio e più appropriato disporre di una procedura formalizzata per quantificare il rischio di parzialità distorta sugli squilibri negli associati demografici. Non ho esaminato questo aspetto, ma sarei interessato ad altre opinioni su come potrebbe essere.
Rinnova il

Risposte:


10

Questo è un problema complicato che introduce molti problemi correlati di: 1) specificare chiaramente un'ipotesi, 2) comprendere quali meccanismi causali (possono) essere alla base di un effetto ipotizzato e 3) scelta / stile di presentazione.

Hai ragione nel dire che, se applichiamo una buona pratica statistica, per affermare che "i gruppi sono simili", si dovrebbe eseguire un test di equivalenza. Tuttavia, i test di equivalenza presentano gli stessi problemi della loro controparte NHST: il potere è semplicemente un riflesso della dimensione del campione e del numero di confronti: ci aspettiamo differenze, ma la loro estensione ed effetto su un'analisi principale è molto più importante.

Di fronte a queste situazioni, i confronti di base sono quasi sempre aringhe rosse. È possibile applicare metodi migliori (di scienza e statistica). Ho alcuni concetti / risposte di magazzino che prendo in considerazione quando rispondo a domande come questa.

Una colonna "totale" è più importante delle colonne suddivise per trattamento; una discussione è giustificata questi valori.

Negli studi clinici, il campione di sicurezza viene solitamente analizzato. Questo è il sottoinsieme di coloro che sono stati prima approcciati, poi acconsentiti, quindi randomizzati ed infine esposti ad almeno un'iterazione di controllo o trattamento. In questo processo, affrontiamo vari gradi di distorsione della partecipazione.

Probabilmente l'aspetto più importante e omesso di questi studi è la presentazione dei risultati della Tabella 1 in forma aggregata . Questo raggiunge lo scopo più importante di una Tabella 1: dimostrare ad altri ricercatori quanto sia generalizzabile il campione di studio alla popolazione più ampia in cui si applicano i risultati.

Trovo sorprendente come investigatori, lettori e revisori fissi siano sulle tendenze tangenziali all'interno delle caratteristiche del paziente quando vi è una totale inosservanza dei criteri di inclusione / esclusione e della generalizzabilità del campione.

Mi vergogno di dire che ero un analista in un processo che ha trascurato questo problema. Abbiamo reclutato pazienti e poi, a causa di problemi logistici, abbiamo aspettato quasi un anno prima di attuare l'intervento. Non solo il diagramma del consorte mostrava un enorme calo tra quei periodi, ma il campione si spostava. Il risultato è stato in gran parte disoccupato / sottoccupato, più vecchio e più sano delle persone che intendevamo raggiungere. Avevo profonde preoccupazioni per la generalizzabilità dello studio, ma era difficile fare pressioni affinché tali preoccupazioni fossero rese note.

La potenza e l'errore di tipo I dei test per rilevare lo squilibrio nelle caratteristiche di base dipendono dal numero effettivo di caratteristiche

Il punto di presentare un elenco così dettagliato delle variabili di base, come menzionato in precedenza, è quello di fornire un'istantanea completa del campione; la loro anamnesi, i laboratori, i farmaci e la demografia dei pazienti. Questi sono tutti aspetti che i medici usano per raccomandare il trattamento ai pazienti. Si ritiene che tutti prevedano il risultato. Ma il numero di tali fattori è sconcertante. È possibile confrontare fino a 30 variabili diverse. Il rischio grezzo di errore di tipo I è 1- (1-0,05) ^ 30 = 0,79. Si consigliano bonferroni o correzioni di permutazione se è necessario eseguire i test .

Il test statistico nella sua forma più pura deve essere imparziale e dovrebbe essere prespecificato. Tuttavia, la scelta e la presentazione delle caratteristiche di base sono spesso relative. Ritengo che quest'ultimo approccio sia appropriato: se troviamo, come nel mio processo, ci sono tratti interessanti che descrivono efficacemente il campione, dovremmo avere la libertà di scegliere di presentare quei valori ad hoc . Il test può essere eseguito se ha valore, ma si applicano le solite avvertenze: non sono ipotesi di interesse, c'è un alto rischio di confusione su ciò che implicano risultati significativi e non significativi, e i risultati sono più un riflesso di dimensioni del campione e considerazioni sulla presentazione rispetto a qualsiasi verità.

La randomizzazione può essere effettuata, ma solo prima che i pazienti siano esposti al trattamento

Come ho già detto, il campione analizzato è in genere il campione di sicurezza. Tuttavia, la randomizzazione è un approccio fortemente sostenuto e teoricamente coerente per i pazienti che non sono stati esposti al trattamento in studio. Questo vale solo per le impostazioni in cui viene eseguita la registrazione batch. Qui vengono reclutati e randomizzati 100 partecipanti. Se, ad esempio, la probabilità assegna un'alta percentuale di persone anziane a un gruppo, il campione può essere randomizzato per bilanciare l'età. Questo non può essere fatto con l'iscrizione sequenziale o sfalsata, che è l'impostazione in cui vengono condotte la maggior parte delle prove. Questo perché la tempistica dell'iscrizione tende a prevedere lo stato del paziente in base a "distorsioni" del caso prevalente (incidente confuso e criteri di ammissibilità prevalenti).

Il design bilanciato non è un requisito per un'inferenza valida

L'ipotesi di randomizzazione afferma che, teoricamente, tutti i partecipanti avranno distribuzioni in media uguali di covariate. Tuttavia, come menzionato in precedenza, quando si confrontano 30 o più livelli, la probabilità cumulativa di squilibrio non è trascurabile. In effetti, uno squilibrio delle covariate può essere irrilevante se si considera il tutto.

Se la randomizzazione è corretta, potremmo vedere l'età elevata nel gruppo di trattamento, ma il fumo è elevato nel gruppo di controllo: entrambi i quali contribuiscono individualmente al rischio del risultato. Ciò che è necessario per un'inferenza efficace e valida è che il punteggio di propensione sia bilanciato tra i gruppi. Questa è una condizione molto più debole. Sfortunatamente, la propensione non può essere controllata per l'equilibrio senza un modello di rischio. Tuttavia, è facile intuire che tale propensione dipende da una combinazione di covariate e dalla probabilità di uno squilibrio nelle propensioni in un campione randomizzato è molto meno probabile, nonostante sia impossibile mostrarlo esattamente.

Se è noto un modello di rischio o sono presenti forti predittori del risultato, vengono eseguiti RCT più efficienti e validi semplicemente adattando tali fattori indipendentemente dal fatto che siano bilanciati tra i gruppi di trattamento

Uno dei miei articoli preferiti, 7 miti di studi randomizzati controllati , ne discute. L'aggiustamento migliora l'efficienza quando la variabile di aggiustamento è fortemente predittiva del risultato. Si scopre che anche con un perfetto equilibrio 50/50, usando la randomizzazione ad esempio bloccata, o anche come una coincidenza di come la randomizzazione è stata eseguita, la correzione ridurrà gli EC, richiedendo a un numero inferiore di partecipanti di avere uno studio equamente potenziato; questo riduce costi e rischi. È scioccante che ciò non avvenga più spesso.

Gli studi osservazionali richiedono il controllo del confondimento indipendentemente da ciò che mostra la Tabella 1

L'ipotesi di randomizzazione elimina il confondimento. Con un trattamento non randomizzato, c'è confusione. Un confondente è una variabile che è causale del risultato e prevede la ricezione del trattamento quasi sperimentale. Non esiste un test per determinare quali variabili sono / sono fattori confondenti. Il rischio di dare una sbirciatina ai dati per rispondere a queste domande è che i confonditori sono praticamente indistinguibili dai mediatori o dai collider senza una misurazione assolutamente perfetta dei valori longitudinali (e anche allora ...). La regolazione per i mediatori attenua qualsiasi effetto, la regolazione del collider può causare qualsiasi tipo di pregiudizio. Inoltre, non è necessario adattarsi a un insieme totale di fattori confondenti, ma piuttosto è necessario rimuovere il criterio backdoor.

Ad esempio, in uno studio sulla funzione polmonare e sul fumo negli adolescenti: i bambini più grandi hanno maggiori probabilità di fumare, ma poiché sono più alti, la loro funzione polmonare è maggiore. Risulta che la regolazione per l'altezza da sola è sufficiente per rimuovere confusione poiché soddisfa il criterio backdoor. Ulteriori aggiustamenti per età semplicemente perdono efficienza. Tuttavia, la semplice ispezione dell '"equilibrio" di una tabella 1 nei fumatori e nei non fumatori suggerirebbe che sia l'età che l'altezza siano "squilibrate" e quindi dovrebbero essere controllate. Questo non è corretto


1
Sono d'accordo con questo e sono ben consapevole dei problemi con i valori di p. (Troverai poche persone su questo sito o hanno un valore anti-p maggiore di me). E sono tutti alla ricerca di metodi migliori, alcuni dei quali rilanci. Naturalmente, alcune variabili potrebbero essere soppressori (in modo che includerle aumenti le dimensioni dell'effetto principale). Tuttavia, se sto, per esempio, sto rivedendo un documento per un giornale, pensi che raccomandare i test di equivalenza per la tabella 1 sia buono, o potresti cercare la tua risposta completa qui?
Peter Flom - Ripristina Monica

1
@PeterFlom Ora vedo un po 'meglio il contesto. Come revisore statistico, vorrei considerare se il commento è rilevante per le analisi successive. Se non è pertinente, li incoraggio a cancellare quel commento perché non è utile. Se è pertinente, li incoraggio a a) prendere in considerazione un approccio di analisi più solido oppure b) utilizzare le analisi di sensibilità per determinare se esiste una possibile influenza. L'equilibrio delle covariate conta solo nella misura in cui influenza le analisi, quindi è lì che preferirei che venga data attenzione. Forse non è un design adatto alla propensione, vero?
AdamO

1
@PeterFlom Come revisore, non avrebbe senso raccomandare di eliminare del tutto i valori p nella "Tabella 1"?
ameba dice Ripristina Monica il

1
AdamO, ottima risposta (+1), ma sono un po 'preoccupato dalla raccomandazione che più regolazioni dei test siano "consigliabili" nel contesto della "Tabella 1". C'è un errore di tipo I di qualche preoccupazione qui? Sento che in questo caso, l'errore di tipo II è in realtà molto più importante (non si vorrebbe perdere il fatto che alcune variabili di base differiscono tra il trattamento e i gruppi di controllo). Usando Bonferroni, l'errore di tipo II aumenterà notevolmente. Questo è legato al punto di @Pietro sui test di equivalenza: in un certo senso, Tipo I e Tipo II si scambiano di posto se si passa al punto di vista "equivalenza".
ameba dice Ripristina Monica il

1
@amoeba Assolutamente. Se insistiamo su questo approccio (non sulla mia raccomandazione), i NHST richiedono di controllare l'errore di tipo I. Penso che il punto sia che dovremmo controllare FWER perché non ci interessa quale variabile è sbilanciata. Può essere impostato su un valore generoso come 0,2. Io non sono a conoscenza di qualsiasi test di equivalenza per il quale il potere va fino al crescere della dimensione del campione, in modo da motivazioni per tali test sono prolisso, soggettivo, e imprecisa.
AdamO
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.