Quando utilizzare la regressione Deming

Attualmente sto lavorando a un modo per trasformare due diversi valori di test del fosforo l'uno nell'altro.

sfondo

Esistono molti metodi (di estrazione) per misurare il fosforo disponibile nel suolo nel terreno. Paesi diversi applicano metodi diversi, quindi per confrontare la fertilità P tra paesi è necessario calcolare il valore del test P x in base al valore del test P y e viceversa. Pertanto la risposta e la covariata sono intercambiabili.

Quantità P nell'estrattore 1 = P_CAL in [mg / 100g di terreno]

Quantità di P nell'estrattore 2 = P_DL in [mg / 100g di terreno]

Per stabilire tale "equazione di trasformazione", il contenuto di P di 136 campioni di suolo è stato analizzato con estratto di CAL e DL. Sono stati inoltre misurati parametri aggiuntivi come pH del suolo, carbonio organico totale, azoto totale, argilla e carbonato. L'obiettivo è quello di derivare un semplice modello di regressione. In una seconda fase anche un modello multiplo.

Per fornire una panoramica dei dati, vi mostro due grafici a dispersione con una linea di regressione lineare semplice (OLS).

Domande:

A mio avviso, la regressione di deming è adatta se la variabile respone (y) e esplicativa (x) presentano entrambi errori (di misurazione) e sono intercambiabili. La regressione di Deming presuppone che sia noto il rapporto di varianza. Dato che non ho dettagli sull'accuratezza delle misure di estrazione P, esiste un altro modo per determinare il rapporto di varianza? Quale varianza si intende qui? Presumo che NON sia calcolato var(DL_P)/var(CAL_P)?

Q1: Come posso determinare il rapporto di varianza per la depressione della regressione?

Un caso particolare di deming regressione è la regressione ortogonale. Presuppone un rapporto di varianza = 1.

D2: Esiste un modo per diagnosticare se l'assunzione δ = 1 è "approssimativamente" corretta o se l'assunzione (falsa) comporta errori di previsione elevati?

Se presumo δ = 1 la regressione ortogonale fornisce il seguente risultato (arrotondato)

library(MethComp) deming <- Deming(y=P_CAL, x=P_DL, vr=1)

Intercetta: 0,75; Pendenza: 0,71; sigma P_DL: 3.17; sigma P_CAL: 3.17

Tracciare la linea di regressione di deming nei grafici sopra, mostra che la regressione di deming è molto vicina alla regressione a) CAL-P = f (DL-P), ma molto diversa da b) DL-P = f (CAL-P) equazione.

D3: è corretto che nella regressione ortogonale CAL-P = f (DL-P) e DL-P = f (CAL-P) sono espressi con la stessa equazione? In caso contrario, come posso ottenere equazioni corrette per entrambi? Cosa mi manca qui?

A causa delle proprietà di entrambe le soluzioni di estrazione, i valori di DL-P tendono ad essere circa il 25% più alti rispetto ai valori di CAL-P, quindi CAL-P = f (DL-P) dovrebbe avere una pendenza maggiore di DL-P = f (CAL -P). Tuttavia, ciò non si esprime nella depressione della regressione quando esiste una sola pendenza. Il che mi lascia con la mia ultima domanda.

Q4: la regressione deming è un approccio valido per il mio scopo?

regression total-least-squares

— asugila
fonte

Il rapporto delle due deviazioni standard è assunto nella regressione Deming per decidere dove far cadere la perpendicolare alla linea. Se il rapporto è 1, si presume che le varianze siano uguali e la distanza misurata da un angolo di 45 gradi. Non è possibile determinare questo rapporto dai dati.

— Michael R. Chernick,

Per rispondere a una parte delle tue preoccupazioni qui: la regressione Deming sembra offrire uno scarso adattamento nel pannello della trama B, ma questo perché la trama non è corretta. Un modo rapido per valutare se ciò è stato fatto correttamente è guardare i valori X e Y lungo la linea di regressione Deming. Per qualsiasi valore DL-P nel pannello A, dovrebbe avere un valore CAL-P corrispondente che è identico in entrambi i pannelli (NON vero per OLS e la differenza fondamentale tra di essi). Ma in questi grafici, dove DL-P = 20, CAL-P nel pannello A è ~ 15 e nel pannello B ~ 27.

L'errore sembra essere che la linea di regressione Deming è stata disegnata semplicemente scambiando i termini CAL-P e DL-P nell'equazione. L'equazione per il pannello A è:

CAL-P = 0,75 + 0,71 * DL-P

Riorganizzando, ciò implica che l'equazione per il pannello B dovrebbe essere:

DL-P = (CAL-P - 0.75) / 0.71

E non:

DL-P = 0,75 + 0,71 * CAL-P (che è ciò che è stato tracciato)

— mkt - Ripristina Monica
fonte