Quanto è piccola una quantità da aggiungere a x per evitare di prendere il registro di zero?


57

Ho analizzato i miei dati così come sono. Ora voglio guardare le mie analisi dopo aver preso il registro di tutte le variabili. Molte variabili contengono molti zeri. Pertanto aggiungo una piccola quantità per evitare di prendere il registro di zero.

Finora ho aggiunto 10 ^ -10, senza alcuna motivazione, solo perché mi sentivo come se fosse consigliabile aggiungere una quantità molto piccola per ridurre al minimo l'effetto della mia quantità scelta arbitrariamente. Ma alcune variabili contengono per lo più zeri e quindi quando vengono registrate per lo più -23,02. L'intervallo delle gamme delle mie variabili è 1,33-8819,21 e anche la frequenza degli zeri varia notevolmente. Pertanto la mia scelta personale di "piccola quantità" influenza le variabili in modo molto diverso. È chiaro ora che 10 ^ -10 è una scelta completamente inaccettabile, poiché la maggior parte della varianza in tutte le variabili deriva quindi da questa "piccola quantità" arbitraria.

Mi chiedo quale sarebbe un modo più corretto di farlo.

Forse è meglio ricavare la quantità da ciascuna variabile distribuzione individuale? Ci sono delle linee guida su quanto dovrebbe essere grande questa "piccola quantità"?

Le mie analisi sono per lo più semplici modelli di cox con ogni variabile e età / sesso come IV. Le variabili sono le concentrazioni di vari lipidi nel sangue, con spesso coefficienti di variazione considerevoli.

Modifica : l'aggiunta del più piccolo valore diverso da zero della variabile sembra pratica per i miei dati. Ma forse esiste una soluzione generale?

Modifica 2 : Poiché gli zeri indicano semplicemente concentrazioni al di sotto del limite di rilevamento, forse impostarle su (limite di rilevamento) / 2 sarebbe appropriato?


4
Perché stai prendendo delle osservazioni / variabili? log

2
Se si aggiunge alle variabili, le variabili che erano zero sulla scala originale saranno zero sulla scala del registro. 1
MånsT

5
Hai questo problema con la variabile di risposta o solo con le variabili esplicative? Se solo quest'ultimo, a seconda delle considerazioni sulla dimensione del campione, un'opzione potrebbe essere quella di aggiungere ulteriori variabili fittizie che indicano che la concentrazione di un determinato analita era inferiore alla soglia di rilevamento. Questo assorbe gradi di libertà, ma ha il vantaggio di non imporre una scelta arbitraria ad hoc sui dati. Può anche scoprire non linearità o discontinuità vicine alla soglia di rilevazione che potrebbero altrimenti essere prese in considerazione.
cardinale il

2
La scala del log di @Procrastinator è naturale per le concentrazioni a causa della relazione esponenziale tra la costante di equilibrio e l'energia di Gibbs; infatti in chimica "continua" la concentrazione 0 è alquanto irreale.

2
Un'alternativa sarebbe prendere, diciamo, la radice cubica dei dati - non ti porta fino al registro, ma conserva gli zeri senza riscalare.
jbowman,

Risposte:


26

Dato che gli zeri indicano semplicemente concentrazioni al di sotto del limite di rilevazione, forse impostarle su (limite di rilevazione) / 2 sarebbe appropriato

Stavo solo scrivendo che la cosa che mi viene in mente in cui il log ha (frequentemente) un senso e può verificarsi 0 sono concentrazioni quando hai fatto la seconda modifica. Come dici tu, per concentrazioni misurate lo 0 significa semplicemente "non sono riuscito a misurare quelle basse concentrazioni".

Nota a margine: intendi LOQ invece di LOD?

Se l'impostazione di 0 su LOQ è una buona idea o meno dipende:12

  • dal punto di vista che è la tua "ipotesi" che esprime che c è ovunque tra 0 e LOQ, ha senso. Ma considera la funzione di calibrazione corrispondente: a sinistra, la funzione di calibrazione produce c = 0 sotto il LOQ. A destra, viene utilizzato anziché 0.12LOQ

    inserisci qui la descrizione dell'immagineinserisci qui la descrizione dell'immagine
    12LOQ

  • Tuttavia, se il valore misurato originale è disponibile, ciò potrebbe fornire un'ipotesi migliore. Dopotutto, LOQ di solito significa solo che l'errore relativo è del 10%. Al di sotto di ciò la misurazione porta ancora informazioni, ma l'errore relativo diventa enorme.
    inserisci qui la descrizione dell'immagine
    (blu: LOD, rosso: LOQ)

  • Un'alternativa sarebbe quella di escludere queste misurazioni. Questo può essere ragionevole, anche per
    esempio pensare a una curva di calibrazione. In pratica si osserva spesso una forma sigmoidea: per c basso, segnale ≈ costante, comportamento lineare intermedio, quindi saturazione del rivelatore. inserisci qui la descrizione dell'immagine
    In quella situazione potresti voler limitarti alle affermazioni sulle concentrazioni che sono chiaramente nell'intervallo lineare poiché sia ​​i processi al di sotto che quelli sopra altri influenzano pesantemente il risultato.
    Assicurati di spiegare che i dati sono stati selezionati in questo modo e perché.


modifica: ciò che è ragionevole o accettabile, dipende ovviamente dal problema. Speriamo che stiamo parlando di una piccola parte dei dati che non influenza l'analisi.

Forse un controllo rapido e sporco è: esegui l'analisi dei dati con e senza escludere i dati (o qualunque trattamento tu proponga) e vedere se qualcosa cambia sostanzialmente.

Se vedi cambiamenti, ovviamente sei nei guai. Tuttavia, dal punto di vista della chimica analitica, direi che il tuo problema non risiede principalmente nel metodo che usi per trattare i dati, ma il problema di fondo è che il metodo analitico (o il suo intervallo di lavoro) non era appropriato per il problema a portata di mano. Esiste ovviamente una zona in cui un migliore approccio statistico può salvare la giornata, ma alla fine l'approssimazione "immondizia, immondizia in uscita" di solito vale anche per i metodi più elaborati.

Quotazioni per l'argomento:


1
Adoro la citazione in fondo (+1).
Ripristina Monica il

32

I dati sulla concentrazione chimica hanno spesso zeri, ma questi non rappresentano valori zero : sono codici che rappresentano in modo vario (e confuso) entrambi i non rilevati (la misurazione indicava, con un alto grado di probabilità, che l'analita non fosse presente) e "non quantificato" valori (la misurazione ha rilevato l'analita ma non è stato in grado di produrre un valore numerico affidabile). Chiamiamo vagamente questi "ND" qui.

Tipicamente, esiste un limite associato a un ND variamente noto come "limite di rilevazione", "limite di quantificazione" o (molto più onestamente) un "limite di segnalazione", perché il laboratorio sceglie di non fornire un valore numerico (spesso per motivi legali motivi). Tutto ciò che sappiamo veramente di un ND è che il valore reale è probabilmente inferiore al limite associato: è quasi (ma non del tutto) una forma di censura di sinistra. (Beh, non è nemmeno vero: è una finzione conveniente. Questi limiti sono determinati tramite calibrazioni che, nella maggior parte dei casi, hanno proprietà statistiche da povere a terribili. Possono essere grossolanamente sovrastimate o sottostimate. È importante sapere quando stai osservando una serie di dati di concentrazione che sembrano avere una coda destra lognormale che è tagliata (diciamo) a , più uno "picco" a rappresenta tutti gli ND. Ciò suggerirebbe fortemente che il limite di segnalazione è solo un poco meno di , ma i dati di laboratorio potrebbero provare a dirti che è o o qualcosa del genere.)1.3301.330.50.1

Negli ultimi 30 anni sono state condotte ampie ricerche circa il modo migliore per riassumere e valutare tali set di dati. Dennis Helsel ha pubblicato un libro su questo, Nondetects and Data Analysis (Wiley, 2005), insegna un corso e ha pubblicato un Rpacchetto basato su alcune delle tecniche che predilige. Il suo sito Web è completo.

Questo campo è pieno di errori e malintesi. Helsel è sincero al riguardo: nella prima pagina del capitolo 1 del suo libro scrive,

... il metodo più comunemente usato negli studi ambientali di oggi, la sostituzione della metà del limite di rilevazione, NON è un metodo ragionevole per interpretare i dati censurati.

Quindi che si fa? Le opzioni includono l'ignorare questo buon consiglio, applicare alcuni dei metodi nel libro di Helsel e usare alcuni metodi alternativi. Esatto, il libro non è completo e esistono alternative valide. L'aggiunta di una costante a tutti i valori nel set di dati ("avvio") è una. Ma considera:

  • L'aggiunta di non è un buon punto di partenza, perché questa ricetta dipende dalle unità di misura. L'aggiunta di microgrammo per decilitro non avrà lo stesso risultato dell'aggiunta di millimole per litro.111

  • Dopo aver avviato tutti i valori, avrai comunque un picco sul valore più piccolo, che rappresenta quella raccolta di ND. La tua speranza è che questo picco sia coerente con i dati quantificati, nel senso che la sua massa totale è approssimativamente uguale alla massa di una distribuzione lognormale tra e il valore iniziale.0

    Un eccellente strumento per determinare il valore iniziale è un diagramma delle probabilità lognormale: a parte gli ND, i dati dovrebbero essere approssimativamente lineari.

  • La raccolta di ND può anche essere descritta con una cosiddetta distribuzione "delta lognormal". Questa è una miscela di una massa puntiforme e una lognormale.

Come è evidente nei seguenti istogrammi di valori simulati, le distribuzioni censurate e delta non sono le stesse. L'approccio delta è molto utile per le variabili esplicative in regressione: è possibile creare una variabile "fittizia" per indicare gli ND, prendere i logaritmi dei valori rilevati (o trasformarli in altro modo secondo necessità) e non preoccuparsi dei valori di sostituzione degli ND .

Gli istogrammi

In questi istogrammi, circa il 20% dei valori più bassi sono stati sostituiti da zero. Per la comparabilità, sono tutti basati sugli stessi 1000 valori lognormali sottostanti simulati (in alto a sinistra). La distribuzione delta è stata creata sostituendo 200 dei valori con zero a caso . La distribuzione censurata è stata creata sostituendo i 200 valori più piccoli con zeri. La distribuzione "realistica" è conforme alla mia esperienza, in base alla quale i limiti di segnalazione in realtà variano in pratica (anche quando ciò non è indicato dal laboratorio!): Li ho fatti variare in modo casuale (di poco, raramente più di 30 in in entrambe le direzioni) e ha sostituito tutti gli zero con valori simulati inferiori ai limiti di segnalazione.

Per mostrare l'utilità del grafico delle probabilità e spiegarne l'interpretazione , la figura successiva mostra i normali grafici delle probabilità relativi ai logaritmi dei dati precedenti.

Diagrammi di probabilità

L'angolo in alto a sinistra mostra tutti i dati (prima di qualsiasi censura o sostituzione). Si adatta perfettamente alla linea diagonale ideale (prevediamo alcune deviazioni nelle code estreme). Questo è ciò che miriamo a raggiungere in tutti i grafici successivi (ma, a causa degli ND, ci mancherà inevitabilmente questo ideale.) L'angolo in alto a destra è un diagramma di probabilità per il set di dati censurato, usando un valore iniziale di 1. È una scelta terribile, perché tutti gli ND (tracciati a 0, perchélog(1+0)=0) sono tracciati troppo in basso. L'angolo in basso a sinistra è un diagramma di probabilità per il set di dati censurato con un valore iniziale di 120, che è vicino a un limite di segnalazione tipico. L'adattamento in basso a sinistra ora è decente - speriamo solo che tutti questi valori arrivino da qualche parte vicino, ma a destra della linea adattata - ma la curvatura nella coda superiore mostra che l'aggiunta di 120 sta iniziando a modificare il forma della distribuzione. In basso a destra mostra cosa succede ai dati delta-lognormali: c'è una buona corrispondenza con la coda superiore, ma una curvatura pronunciata vicino al limite di segnalazione (al centro della trama).

Infine, esploriamo alcuni degli scenari più realistici:

Diagrammi di probabilità 2

L'angolo in alto a sinistra mostra il set di dati censurato con gli zeri impostati a metà del limite di segnalazione. È abbastanza adatto. In alto a destra è il set di dati più realistico (con limiti di segnalazione che variano in modo casuale). Un valore iniziale di 1 non aiuta, ma - in basso a sinistra - per un valore iniziale di 120 (vicino all'intervallo superiore dei limiti di segnalazione) l'adattamento è abbastanza buono. È interessante notare che la curvatura vicino al centro quando i punti salgono dagli ND ai valori quantificati ricorda la distribuzione delta lognormale (anche se questi dati non sono stati generati da una tale miscela). In basso a destra c'è il diagramma delle probabilità che ottieni quando i dati realistici hanno i loro ND sostituiti da metà del limite (tipico) di segnalazione. Questa è la soluzione migliore, anche se mostra un comportamento simile a delta-lognormale nel mezzo.

Ciò che dovresti fare, quindi, è usare i diagrammi di probabilità per esplorare le distribuzioni mentre vengono usate varie costanti al posto degli ND. Inizia la ricerca con la metà del limite nominale, medio, di segnalazione, quindi modificalo su e giù da lì. Scegli un diagramma che assomigli a quello in basso a destra: approssimativamente una linea retta diagonale per i valori quantificati, un rapido passaggio a un plateau basso e un plateau di valori che (appena) incontrano l'estensione della diagonale. Tuttavia, seguendo il consiglio di Helsel (che è fortemente supportato in letteratura), per i sommari statistici effettivi, evitare qualsiasi metodo che sostituisca i ND con qualsiasi costante. Per la regressione, considerare l'aggiunta di una variabile fittizia per indicare gli ND. Per alcune visualizzazioni grafiche, la costante sostituzione degli ND con il valore trovato con l'esercizio del diagramma delle probabilità funzionerà bene. Per altri display grafici potrebbe essere importante rappresentare i limiti di segnalazione effettivi, quindi sostituire gli ND con i loro limiti di segnalazione. Devi essere flessibile!


1
Risposta estremamente bella! Sono completamente d'accordo. E ho familiarità con la sensazione quando guardi i dati e ti rendi conto che prima che fosse trasformato "come al solito" c'era un set di dati perfettamente utile ...
cbeleites supporta Monica il

1
limiti variabili : esistono diversi approcci diversi per calcolare sia LOD (limite di rilevazione -> per risposte qualitative) sia LOQ (limite di quantificazione, che è per misurazioni quantitative). Immagino che un laboratorio di solito non cambierà il metodo di calcolo (per lo stesso metodo analitico). Tuttavia, questi valori vengono ricalcolati ogni volta che viene eseguito il calcolo. Se il metodo necessita di calibrazione ogni giorno lavorativo, ogni giorno avrai un limite (leggermente) diverso.
cbeleites supporta Monica il

1
limiti e motivi legali per non fornire numeri bassi: motivi legali non vieterebbero di fornire (ulteriori) informazioni più dettagliate come segnale grezzo, concentrazione corrispondente e intervallo di confidenza / giudizio della misurazione (ad es. "sotto LOQ"). Inoltre, è possibile chiedere al laboratorio di analisi la curva di calibrazione. Mi aspetto che tu debba pagare per quello in quanto è un lavoro extra, ma mi aspetto che ciò sia possibile. Il compromesso più economico potrebbe essere quello di darti tutti i dati grezzi e di lasciarti l'analisi dei dati. Potrebbe esserti utile se sanno che sei statistico / chemiometrico / chimico analitico / ...
cbeleites supporta Monica

1
Nel mio lavoro incontriamo spesso zeri perché i dati sono arrotondati. In tal caso si tratta di dati raggruppati, consultare stats.stackexchange.com/questions/26950/…
Stéphane Laurent,

2
C'è un intero campo, "chemiometria", dedicato a questo e argomenti correlati, e interi libri sono stati scritti (e continuano ad essere scritti) che trattano esclusivamente di ciò che è un "limite di rilevazione". Ho incontrato più di 20 definizioni distinte! La questione della reespressione di una variabile (come prendere il suo logaritmo) è anche fondamentale nell'analisi e nell'esplorazione dei dati; gran parte di molti libri (in particolare i libri sull'analisi dei dati esplorativi) si concentrano su tale questione.
whuber

5

@miura

Mi sono imbattuto in questo articolo di Bill Gould sul blog di Stata (penso che abbia effettivamente fondato Stata) che penso possa fornire aiuto con la tua analisi. Verso la fine dell'articolo mette in guardia contro l'uso di numeri arbitrari vicini allo zero, come 0,01, 0,0001, 0,0000001 e 0 poiché nei registri sono -4,61, -9,21, -16,12 e . In questa situazione non sono affatto arbitrari. Egli consiglia l'uso di una regressione di Poisson poiché riconosce che il numero sopra riportato è in realtà ravvicinato.


3

Puoi impostare gli zeri della variabile su dove è abbastanza grande da distinguere questi casi dal resto (ad es. 6 o 10).ithmean(xi)n×stddev(xi)n

Si noti che qualsiasi impostazione artificiale influirà sulle analisi, quindi è necessario prestare attenzione alla propria interpretazione e in alcuni casi scartare questi casi per evitare artefatti.

Anche l'utilizzo del limite di rilevamento è un'idea ragionevole.


3

Per chiarire come gestire il registro dello zero nei modelli di regressione, abbiamo scritto un documento pedagogico che spiega la soluzione migliore e gli errori comuni che le persone commettono nella pratica. Abbiamo anche escogitato una nuova soluzione per affrontare questo problema.

Puoi trovare l'articolo facendo clic qui: https://ssrn.com/abstract=3444996

Innanzitutto, pensiamo che ci si dovrebbe chiedere perché usare una trasformazione del registro. Nei modelli di regressione, una relazione log-log porta all'identificazione di un'elasticità. Infatti, se , allora corrisponde all'elasticità di a . Il registro può anche linearizzare un modello teorico. Può anche essere usato per ridurre l'eteroschedasticità. Tuttavia, in pratica, spesso si verifica che la variabile utilizzata nel registro contenga valori non positivi.log(y)=βlog(x)+εβyx

Una soluzione che viene spesso proposta consiste nell'aggiungere una costante positiva c a tutte le osservazioni modo che . Tuttavia, contrariamente alle regressioni lineari, le regressioni log-lineari non sono robuste per la trasformazione lineare della variabile dipendente. Ciò è dovuto alla natura non lineare della funzione di registro. La trasformazione del registro espande i valori bassi e comprime i valori alti. Pertanto, l'aggiunta di una costante distorce la relazione (lineare) tra zeri e altre osservazioni nei dati. L'entità del bias generato dalla costante dipende in realtà dall'intervallo di osservazioni nei dati. Per questo motivo, aggiungere la costante più piccola possibile non è necessariamente la migliore soluzione peggiore.YY+c>0

Nel nostro articolo, in realtà forniamo un esempio in cui l'aggiunta di costanti molto piccole sta effettivamente fornendo il massimo pregiudizio. Forniamo derivare un'espressione del pregiudizio.

In realtà, Poisson Pseudo Maximum Likelihood (PPML) può essere considerata una buona soluzione a questo problema. Bisogna considerare il seguente processo:

yi=aiexp(α+xiβ) conE(ai|xi)=1

Questo processo è motivato da diverse funzionalità. Innanzitutto, fornisce la stessa interpretazione a di un modello semi-log. In secondo luogo, questo processo di generazione dei dati fornisce una razionalizzazione logica dei valori zero nella variabile dipendente. Questa situazione può verificarsi quando il termine di errore moltiplicativo, , è uguale a zero. In terzo luogo, la stima di questo modello con PPML non incontra la difficoltà computazionale quando . Partendo dal presupposto che , abbiamo . Vogliamo ridurre al minimo l'errore quadratico di questo momento, portando alle seguenti condizioni del primo ordine:βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

Queste condizioni sono definite anche quando . Queste condizioni del primo ordine sono numericamente equivalenti a quelle di un modello di Poisson, quindi possono essere stimate con qualsiasi software statistico standard.yi=0

Infine, proponiamo una nuova soluzione che è anche facile da implementare e che fornisce uno stimatore imparziale di . Basta semplicemente stimare:β

log(yi+exp(α+xiβ))=xiβ+ηi

Mostriamo che questo stimatore è imparziale e che può essere semplicemente stimato con GMM con qualsiasi software statistico standard. Ad esempio, può essere stimato eseguendo solo una riga di codice con Stata.

Speriamo che questo articolo possa essere d'aiuto e ci piacerebbe ricevere feedback da te.

Christophe Bellégo e Louis-Daniel Pape, CREST - Ecole Polytechnique - ENSAE

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.