Regressione degli errori nelle variabili: è valido unire i dati di tre siti?


15

Recentemente ho avuto un cliente da me per fare un'analisi bootstrap perché un revisore della FDA ha affermato che la loro regressione errori-in-variabili non era valida perché quando si univano i dati dei siti l'analisi includeva il pooling dei dati di tre siti in cui due siti includevano alcuni esempi che erano lo stesso.

SFONDO

Il cliente aveva un nuovo metodo di analisi che voleva mostrare era "equivalente" a un metodo approvato esistente. Il loro approccio era di confrontare i risultati di entrambi i metodi applicati agli stessi campioni. Sono stati utilizzati tre siti per eseguire i test. Gli errori nelle variabili (regressione Deming) sono stati applicati ai dati di ciascun sito. L'idea è che se la regressione mostrasse che il parametro di pendenza era vicino a 1 e l'intercettazione vicino a 0 ciò avrebbe mostrato che le due tecniche di analisi davano quasi gli stessi risultati e quindi il nuovo metodo doveva essere approvato. Nel sito 1 avevano 45 campioni che davano loro 45 osservazioni accoppiate. Il sito 2 aveva 40 campioni e il sito 3, 43 campioni. Hanno eseguito tre regressioni Deming separate (assumendo un rapporto di 1 per gli errori di misurazione per i due metodi). Quindi l'algoritmo ha minimizzato la somma delle distanze perpendicolari al quadrato.

Nella loro presentazione il cliente ha sottolineato che alcuni dei campioni utilizzati nei siti 1 e 2 erano gli stessi. Nella revisione il revisore della FDA ha dichiarato che la regressione Deming non era valida perché sono stati utilizzati campioni comuni che causano "interferenze" che invalidano i presupposti del modello. Hanno richiesto l'applicazione di una regolazione bootstrap ai risultati Deming per tenere conto di questa interferenza.

A quel punto dal momento che il cliente non sapeva come fare il bootstrap, mi è stato introdotto. Il termine interferenza era strano e non ero sicuro di cosa stesse facendo il revisore. Ho supposto che il punto fosse davvero che il fatto che i dati aggregati avessero campioni comuni ci sarebbe stata una correlazione per i campioni comuni e quindi i termini di errore del modello non sarebbero stati tutti indipendenti.

L'ANALISI DEL CLIENTE

Le tre regressioni separate erano molto simili. Ognuno aveva parametri di pendenza vicini a 1 e intercettava vicino a 0. L'intervallo di confidenza al 95% conteneva 1 e 0 rispettivamente per la pendenza e l'intercetta. La differenza principale era una varianza residua leggermente più elevata nel sito 3. Inoltre, hanno confrontato questo con i risultati ottenuti facendo OLS e li hanno trovati molto simili (in un solo caso l'intervallo di confidenza per la pendenza basato su OLS non conteneva 1). Nel caso in cui la CI OLS per la pendenza non contenesse 1, il limite superiore dell'intervallo era simile a 0,99.

Con i risultati così simili in tutti e tre i siti, i dati del sito sembravano ragionevoli. Il client ha eseguito una regressione Deming in pool che ha portato a risultati simili. Alla luce di questi risultati, ho scritto un rapporto per il cliente contestando l'affermazione che le regressioni non erano valide. La mia tesi è che, poiché ci sono errori di misurazione simili in entrambe le variabili, il cliente aveva ragione a usare la regressione Deming come un modo per mostrare accordo / disaccordo. Le regressioni del singolo sito non hanno avuto problemi di errori correlati poiché non sono stati ripetuti campioni all'interno di un determinato sito. Raggruppamento dei dati per ottenere intervalli di confidenza più stretti.

Questa difficoltà potrebbe essere risolta semplicemente mettendo in comune i dati con i campioni comuni del sito 1 che si dice lasciato fuori. Anche i tre singoli modelli di sito non presentano il problema e sono validi. Questo mi sembra fornire una forte prova di accordo anche senza la messa in comune. Inoltre, le misurazioni sono state eseguite in modo indipendente nei siti 1 e 2 per i siti comuni. Quindi penso che anche l'analisi aggregata che utilizza tutti i dati sia valida perché gli errori di misurazione per un campione nel sito 1 non sono correlati agli errori di misurazione nel campione corrispondente nel sito 2. Ciò equivale a ripetere un punto nella progettazione spazio che non dovrebbe essere un problema. Non crea correlazione / "interferenza".

Nel mio rapporto ho scritto che un'analisi bootstrap non era necessaria perché non c'è alcuna correlazione per cui adeguarsi. I tre modelli di sito erano validi (nessuna "interferenza" possibile all'interno dei siti) e un'analisi in pool poteva essere eseguita rimuovendo i campioni comuni nel sito 1 durante l'esecuzione del pool. Un'analisi così aggregata non potrebbe avere un problema di interferenza. Una regolazione bootstrap non sarebbe necessaria perché non ci sono errori da regolare.

CONCLUSIONE

Il cliente era d'accordo con la mia analisi ma aveva paura di portarlo alla FDA. Vogliono che io faccia comunque la regolazione del bootstrap.

LE MIE DOMANDE

A) Sei d'accordo con (1) La mia analisi dei risultati del cliente e (2) la mia tesi che il bootstrap non è necessario.

B) Dato che devo eseguire il bootstrap della regressione Deming, sono disponibili procedure SAS o R per eseguire la regressione Deming sui campioni bootstrap?

EDIT: dato il suggerimento di Bill Huber, ho intenzione di esaminare i limiti della regressione degli errori nelle variabili per regressione sia su y che su x su y. Sappiamo già che per una versione di OLS la risposta è essenzialmente la stessa degli errori nelle variabili quando si presume che le due varianze di errore siano uguali. Se questo è vero per l'altra regressione, penso che ciò dimostrerà che la regressione Deming offre una soluzione appropriata. Sei d'accordo?

Per soddisfare la richiesta del cliente, devo eseguire l'analisi bootstrap richiesta che è stata vagamente definita. Eticamente penso che sarebbe sbagliato fornire solo il bootstrap perché non risolve davvero il vero problema del cliente, che è quello di giustificare la loro procedura di misurazione del dosaggio. Quindi darò loro entrambe le analisi e chiederò almeno che dicano alla FDA che oltre a fare il bootstrap ho fatto regressione inversa e limitato le regressioni Deming che ritengo più appropriate. Inoltre, penso che l'analisi mostrerà che il loro metodo è equivalente al riferimento e quindi anche la regressione di Deming è adeguata.

Ho intenzione di utilizzare il programma R che @whuber mi ha suggerito nella sua risposta per consentirmi di avviare la regressione Deming. Non conosco molto bene R ma penso di potercela fare. Ho R installato insieme a R Studio. Sarà abbastanza facile per un principiante come me?

Inoltre ho SAS e sono più a mio agio con la programmazione in SAS. Quindi, se qualcuno conosce un modo per farlo in SAS, mi farebbe piacere saperlo.


2
Non conosco la risposta a questa domanda, ma, su base puramente politica, non sarebbe meglio fare ciò che la FDA vuole e mostrare (almeno, presumibilmente), che i risultati sono simili? (Buona domanda, a proposito, +1)
Peter Flom - Ripristina Monica

1
Sì @PeterFlom Sono d'accordo che fare l'analisi per la FDA e mostrarla non ha importanza. Ma penso che sottolineare diplomaticamente i risultati delle regressioni e le loro implicazioni e fare il raggruppamento senza i campioni sovrapposti rafforzi l'argomento. Ho intenzione di fare il bootstrap ma potrei usare la guida per trovare il software disponibile per eseguire personalmente la regressione Deming senza codificarlo in modo indipendente.
Michael R. Chernick,

2
Michael, la possibilità di "campioni" comuni a "siti" mette in discussione alcune interpretazioni naturali di ciò che questi termini (astratti) potrebbero significare. Ad esempio, inizialmente ho pensato ai "siti" come posizioni geografiche diverse e ai "campioni" come entità separate associate a tali posizioni, ciascuna sottoposta a misurazioni indipendenti. In questo modello è impossibile che i campioni siano comuni a siti diversi. La prego di chiarire che cosa si intende per questi termini?
whuber

3
@whuber i siti sono posizioni diverse. I campioni sono plasma citrato di individui. I test di laboratorio vengono eseguiti in diversi siti in momenti diversi. I confronti riguardano due dispositivi di misurazione del test che hanno lo scopo di svolgere la stessa funzione. Nei siti 1 e 2 alcuni dei campioni sono stati riutilizzati ma i dispositivi hanno funzionato in modo indipendente nel sito 1 e nel sito 2. Ecco perché dico che gli errori di misurazione sono realmente indipendenti anche se vengono utilizzati gli stessi campioni (o porzioni degli stessi campioni) .
Michael R. Chernick,

1
a) Concordato che tralasciando il campione duplicato dall'analisi aggregata si eliminano le preoccupazioni per la mancanza di indipendenza. b) Pochissimi utenti SAS troveranno "facile" usare R per analisi bootstrap che coinvolgono metodi di regressione non comuni. Le analisi Bootstrap richiedono davvero la modalità di programmazione funzionale del pensiero, e questa non è una modalità che SAS incoraggia.
DWin,

Risposte:


10

Questo è un problema di calibrazione reciproca: cioè di confrontare quantitativamente due dispositivi di misurazione indipendenti.

Sembrano esserci due problemi principali. Il primo (che è solo implicito nella domanda) è nel formulare il problema: come si dovrebbe determinare se un nuovo metodo è "equivalente" a uno approvato? Il secondo riguarda come analizzare i dati in cui alcuni campioni potrebbero essere stati misurati più di una volta.

Inquadrare la domanda

La migliore (e forse ovvia) soluzione al problema dichiarato è quella di valutare il nuovo metodo usando campioni con valori accuratamente noti ottenuti da mezzi comparabili (come il plasma umano). (Questo di solito viene eseguito aggiungendo campioni effettivi con materiali standard di concentrazione nota.) Poiché ciò non è stato fatto, supponiamo che non sia possibile o non sarebbe accettabile per i regolatori (per qualsiasi motivo). Pertanto, siamo ridotti a confrontare due metodi di misurazione, uno dei quali viene utilizzato come riferimento perché si ritiene che sia accurato e riproducibile (ma senza una precisione perfetta).

In effetti, il cliente richiederà che la FDA consenta il nuovo metodo come proxy o surrogato per il metodo approvato. Pertanto, il loro onere è dimostrare che i risultati del nuovo metodo prevedono, con sufficiente precisione, ciò che il metodo approvato avrebbe determinato se fosse stato applicato. L'aspetto sottile di questo è che siamo , non cercando di prevedere i veri valori stessi - non abbiamo nemmeno li conosciamo. Pertanto, la regressione degli errori nelle variabili potrebbe non essere il modo più appropriato per analizzare questi dati.

YXXYYXYX. (Nella mia esperienza questo approccio tende ad essere prudentemente rigoroso: questi intervalli possono essere sorprendentemente grandi a meno che entrambe le misurazioni non siano altamente accurate, precise e linearmente correlate.)

Indirizzare campioni duplicati

I concetti rilevanti qui sono di supporto del campione e componenti della varianza. "Supporto campione" si riferisce alla parte fisica di un soggetto (un essere umano qui) che viene effettivamente misurata. Dopo che una parte del soggetto è stata presa, di solito deve essere divisa in sottocampioni adatti al processo di misurazione. Potremmo essere preoccupati per la possibilità di variazione tra sottocampioni. In un campione liquido che è ben miscelato, non vi è sostanzialmente alcuna variazione nella quantità sottostante (come una concentrazione di una sostanza chimica) in tutto il campione, ma in campioni di solidi o semisolidi (che potrebbero includere sangue), tale variazione può essere sostanziale. Considerando che i laboratori spesso richiedono solo microlitri di una soluzione per eseguire una misurazione, dobbiamo preoccuparci della variazione quasi su scala microscopica. Questo potrebbe essere importante.

La possibilità di tale variazione all'internoun campione fisico indica che la variazione dei risultati della misurazione deve essere suddivisa in "componenti della varianza" separati. Un componente è la varianza rispetto alla variazione all'interno del campione e altri sono contributi alla varianza da ogni fase indipendente del successivo processo di misurazione. (Questi passaggi possono includere l'atto fisico del sottocampionamento, un'ulteriore elaborazione chimica e fisica del campione - come l'aggiunta di stabilizzanti o centrifugazione -, l'iniezione del campione nello strumento di misura, le variazioni all'interno dello strumento, le variazioni tra gli strumenti e altro variazioni dovute a cambiamenti nell'uso dello strumento, possibili contaminazioni ambientali nei laboratori e altro ancora. Spero che ciò chiarisca che, per fare davvero un buon lavoro nel rispondere a questa domanda, lo statistico ha bisogno di una conoscenza approfondita dell'intero processo di campionamento e di analisi. Tutto quello che posso fare è fornire una guida generale.)

Queste considerazioni si applicano alla domanda attuale perché un "campione" che viene misurato in due "siti" diversi è in realtà due campioni fisici ottenuti dalla stessa persona e quindi suddivisi tra i laboratori. La misurazione con il metodo approvato utilizzerà un pezzo di un campione diviso e la misurazione simultanea con il nuovo metodo utilizzerà un altro pezzo del campione diviso. Considerando i componenti della varianza che queste divisioni implicano, possiamo risolvere il problema principale della domanda. Ora dovrebbe essere chiaro che le differenze tra queste misurazioni accoppiate dovrebbero essere attribuite a due cose: in primo luogo, le differenze effettive tra le procedure di misurazione - questo è ciò che stiamo cercando di valutare - e in secondo luogo, le differenze dovute a qualsiasi variazione all'internoil campione e la variazione causati dai processi fisici di estrazione dei due sottocampioni da misurare. Se il ragionamento fisico sull'omogeneità del campione e il processo di sottocampionamento può stabilire che la seconda forma di varianza è trascurabile, allora in effetti non vi è alcuna "interferenza" come affermato dal revisore. Altrimenti, potrebbe essere necessario modellare e stimare esplicitamente questi componenti della varianza nell'analisi della regressione inversa.


1
Grazie per una bella analisi che suggerisce il modo migliore per affrontare questo problema. Tuttavia, nella mia situazione particolare, il cliente ha scelto l'approccio di regressione Deming e non è alla ricerca di un metodo diverso. L'iniezione della FDA alla regressione Deming sembra essere dovuta solo all'interferenza e il loro suggerimento per aggirare il problema è un qualche tipo di correzione bootstrap. Sono stato portato solo perché non sanno come fare il bootstrap. Non hanno statisti coinvolti e non hanno presentato un'analisi statistica dei risultati, come ho indicato nella mia relazione.
Michael R. Chernick,

2
Apprezzo i vincoli (e avrei dovuto essere esplicito al riguardo). In generale, tuttavia, un buon quadro per risolvere domande come questa è prendere un modello appropriato come punto di partenza. Se provi a ragionare su una soluzione utilizzando un approccio inappropriato e un modello non valido (per soddisfare un cliente), aggraverai solo gli errori e non sarai in grado di raggiungere una soluzione chiaramente difendibile. Quello che potresti considerare ora è come la regressione Deming varia dalla regressione inversa, così come come la regressione Deming potrebbe essere adattata per adattarsi a più componenti di varianza.
whuber

1
Potresti essere motivato a dimostrare che la regressione Deming, come già applicata, è sufficientemente vicina a ciò che un metodo più normale o appropriato produrrebbe: una tale dimostrazione potrebbe essere la migliore soluzione possibile nella tua situazione.
whuber

Invece quello che hanno fatto è stato semplicemente descrivere il problema e come sono stati raccolti i dati e visualizzare l'output della regressione Deming. Se fosse stato coinvolto uno statistico, potrebbero esserci stati meno problemi statistici sulla regressione di Deming. Tutto quello che posso fare per il clinet è fornire un caso per l'analisi che è stata fatta (che includeva una spiegazione del perché la maggior parte della regressione potrebbe essere analizzata senza preoccuparsi dell'interferenza da campionamenti ripetuti da una fonte comune) e di fornire il bootstrap richiesto regolazione per la varianza residua nel modello aggregato.
Michael R. Chernick,

A questo punto non posso dire loro di fare regressione inversa. Se un metodo di misurazione viene approvato, penso che possa essere visto come riferimento e l'onere per l'azienda è dimostrare che il nuovo metodo svolge essenzialmente lo stesso lavoro del riferimento. Per questo penso che la regressione di Deming possa essere adatta e almeno possa essere accettabile dalla FDA. Probabilmente sarebbe stato se il problema dei campioni ripetuti non fosse emerso. Tale problema non si sarebbe presentato se avessero lasciato il nostro campione ripetuto durante la messa in comune.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.