Questo è un problema complicato che introduce molti problemi correlati di: 1) specificare chiaramente un'ipotesi, 2) comprendere quali meccanismi causali (possono) essere alla base di un effetto ipotizzato e 3) scelta / stile di presentazione.
Hai ragione nel dire che, se applichiamo una buona pratica statistica, per affermare che "i gruppi sono simili", si dovrebbe eseguire un test di equivalenza. Tuttavia, i test di equivalenza presentano gli stessi problemi della loro controparte NHST: il potere è semplicemente un riflesso della dimensione del campione e del numero di confronti: ci aspettiamo differenze, ma la loro estensione ed effetto su un'analisi principale è molto più importante.
Di fronte a queste situazioni, i confronti di base sono quasi sempre aringhe rosse. È possibile applicare metodi migliori (di scienza e statistica). Ho alcuni concetti / risposte di magazzino che prendo in considerazione quando rispondo a domande come questa.
Una colonna "totale" è più importante delle colonne suddivise per trattamento; una discussione è giustificata questi valori.
Negli studi clinici, il campione di sicurezza viene solitamente analizzato. Questo è il sottoinsieme di coloro che sono stati prima approcciati, poi acconsentiti, quindi randomizzati ed infine esposti ad almeno un'iterazione di controllo o trattamento. In questo processo, affrontiamo vari gradi di distorsione della partecipazione.
Probabilmente l'aspetto più importante e omesso di questi studi è la presentazione dei risultati della Tabella 1 in forma aggregata . Questo raggiunge lo scopo più importante di una Tabella 1: dimostrare ad altri ricercatori quanto sia generalizzabile il campione di studio alla popolazione più ampia in cui si applicano i risultati.
Trovo sorprendente come investigatori, lettori e revisori fissi siano sulle tendenze tangenziali all'interno delle caratteristiche del paziente quando vi è una totale inosservanza dei criteri di inclusione / esclusione e della generalizzabilità del campione.
Mi vergogno di dire che ero un analista in un processo che ha trascurato questo problema. Abbiamo reclutato pazienti e poi, a causa di problemi logistici, abbiamo aspettato quasi un anno prima di attuare l'intervento. Non solo il diagramma del consorte mostrava un enorme calo tra quei periodi, ma il campione si spostava. Il risultato è stato in gran parte disoccupato / sottoccupato, più vecchio e più sano delle persone che intendevamo raggiungere. Avevo profonde preoccupazioni per la generalizzabilità dello studio, ma era difficile fare pressioni affinché tali preoccupazioni fossero rese note.
La potenza e l'errore di tipo I dei test per rilevare lo squilibrio nelle caratteristiche di base dipendono dal numero effettivo di caratteristiche
Il punto di presentare un elenco così dettagliato delle variabili di base, come menzionato in precedenza, è quello di fornire un'istantanea completa del campione; la loro anamnesi, i laboratori, i farmaci e la demografia dei pazienti. Questi sono tutti aspetti che i medici usano per raccomandare il trattamento ai pazienti. Si ritiene che tutti prevedano il risultato. Ma il numero di tali fattori è sconcertante. È possibile confrontare fino a 30 variabili diverse. Il rischio grezzo di errore di tipo I è 1- (1-0,05) ^ 30 = 0,79. Si consigliano bonferroni o correzioni di permutazione se è necessario eseguire i test .
Il test statistico nella sua forma più pura deve essere imparziale e dovrebbe essere prespecificato. Tuttavia, la scelta e la presentazione delle caratteristiche di base sono spesso relative. Ritengo che quest'ultimo approccio sia appropriato: se troviamo, come nel mio processo, ci sono tratti interessanti che descrivono efficacemente il campione, dovremmo avere la libertà di scegliere di presentare quei valori ad hoc . Il test può essere eseguito se ha valore, ma si applicano le solite avvertenze: non sono ipotesi di interesse, c'è un alto rischio di confusione su ciò che implicano risultati significativi e non significativi, e i risultati sono più un riflesso di dimensioni del campione e considerazioni sulla presentazione rispetto a qualsiasi verità.
La randomizzazione può essere effettuata, ma solo prima che i pazienti siano esposti al trattamento
Come ho già detto, il campione analizzato è in genere il campione di sicurezza. Tuttavia, la randomizzazione è un approccio fortemente sostenuto e teoricamente coerente per i pazienti che non sono stati esposti al trattamento in studio. Questo vale solo per le impostazioni in cui viene eseguita la registrazione batch. Qui vengono reclutati e randomizzati 100 partecipanti. Se, ad esempio, la probabilità assegna un'alta percentuale di persone anziane a un gruppo, il campione può essere randomizzato per bilanciare l'età. Questo non può essere fatto con l'iscrizione sequenziale o sfalsata, che è l'impostazione in cui vengono condotte la maggior parte delle prove. Questo perché la tempistica dell'iscrizione tende a prevedere lo stato del paziente in base a "distorsioni" del caso prevalente (incidente confuso e criteri di ammissibilità prevalenti).
Il design bilanciato non è un requisito per un'inferenza valida
L'ipotesi di randomizzazione afferma che, teoricamente, tutti i partecipanti avranno distribuzioni in media uguali di covariate. Tuttavia, come menzionato in precedenza, quando si confrontano 30 o più livelli, la probabilità cumulativa di squilibrio non è trascurabile. In effetti, uno squilibrio delle covariate può essere irrilevante se si considera il tutto.
Se la randomizzazione è corretta, potremmo vedere l'età elevata nel gruppo di trattamento, ma il fumo è elevato nel gruppo di controllo: entrambi i quali contribuiscono individualmente al rischio del risultato. Ciò che è necessario per un'inferenza efficace e valida è che il punteggio di propensione sia bilanciato tra i gruppi. Questa è una condizione molto più debole. Sfortunatamente, la propensione non può essere controllata per l'equilibrio senza un modello di rischio. Tuttavia, è facile intuire che tale propensione dipende da una combinazione di covariate e dalla probabilità di uno squilibrio nelle propensioni in un campione randomizzato è molto meno probabile, nonostante sia impossibile mostrarlo esattamente.
Se è noto un modello di rischio o sono presenti forti predittori del risultato, vengono eseguiti RCT più efficienti e validi semplicemente adattando tali fattori indipendentemente dal fatto che siano bilanciati tra i gruppi di trattamento
Uno dei miei articoli preferiti, 7 miti di studi randomizzati controllati , ne discute. L'aggiustamento migliora l'efficienza quando la variabile di aggiustamento è fortemente predittiva del risultato. Si scopre che anche con un perfetto equilibrio 50/50, usando la randomizzazione ad esempio bloccata, o anche come una coincidenza di come la randomizzazione è stata eseguita, la correzione ridurrà gli EC, richiedendo a un numero inferiore di partecipanti di avere uno studio equamente potenziato; questo riduce costi e rischi. È scioccante che ciò non avvenga più spesso.
Gli studi osservazionali richiedono il controllo del confondimento indipendentemente da ciò che mostra la Tabella 1
L'ipotesi di randomizzazione elimina il confondimento. Con un trattamento non randomizzato, c'è confusione. Un confondente è una variabile che è causale del risultato e prevede la ricezione del trattamento quasi sperimentale. Non esiste un test per determinare quali variabili sono / sono fattori confondenti. Il rischio di dare una sbirciatina ai dati per rispondere a queste domande è che i confonditori sono praticamente indistinguibili dai mediatori o dai collider senza una misurazione assolutamente perfetta dei valori longitudinali (e anche allora ...). La regolazione per i mediatori attenua qualsiasi effetto, la regolazione del collider può causare qualsiasi tipo di pregiudizio. Inoltre, non è necessario adattarsi a un insieme totale di fattori confondenti, ma piuttosto è necessario rimuovere il criterio backdoor.
Ad esempio, in uno studio sulla funzione polmonare e sul fumo negli adolescenti: i bambini più grandi hanno maggiori probabilità di fumare, ma poiché sono più alti, la loro funzione polmonare è maggiore. Risulta che la regolazione per l'altezza da sola è sufficiente per rimuovere confusione poiché soddisfa il criterio backdoor. Ulteriori aggiustamenti per età semplicemente perdono efficienza. Tuttavia, la semplice ispezione dell '"equilibrio" di una tabella 1 nei fumatori e nei non fumatori suggerirebbe che sia l'età che l'altezza siano "squilibrate" e quindi dovrebbero essere controllate. Questo non è corretto