Chiarimenti in merito alla lettura di un nomogramma


10

Di seguito è riportato un nomogramma creato dal set di dati mtcars con pacchetto rms per la formula:

mpg ~ wt + am + qsec

inserisci qui la descrizione dell'immagine

Il modello stesso sembra buono con R2 di 0,85 e P <0,00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002  

Non sono chiaro quali siano questi "Punti", "Punti totali" e "Predittore lineare". Quale di questi rappresenta mpg, la variabile di risultato? Apprezzerò qualsiasi spiegazione.

Modifica: considerando i suggerimenti eccellenti di @Glen_b per una facile lettura dei punti, ecc., Potrebbe essere un nomogramma alternativo:

inserisci qui la descrizione dell'immagine

Poiché è disponibile una variabile di risultato o risposta, può essere utilizzata al posto del termine "Predittore lineare". Diventa anche autoesplicativo su come il nomogramma deve essere letto.


bel diagramma in modifica lì
Glen_b -Reinstate Monica

Risposte:


11

Bene, poiché il tuo modello è lineare, con il mpg previsto uguale al predittore lineare, puoi leggere mpg direttamente dalla scala del predittore lineare.

Per ogni variabile, trovi il suo valore sulla scala pertinente. Ad esempio, immagina di voler trovare un mpg previsto per un'auto con wt=4, am=1, qsec=18:

inserisci qui la descrizione dell'immagine

che fornisce un mpg previsto di circa 18,94. Sostituire l'equazione dà 18,95, quindi è abbastanza vicino. (In pratica probabilmente lavoreresti solo al punto intero più vicino - e quindi ottieni una precisione di circa 2 cifre - "19 mpg" - fuori, piuttosto che 3-4 figure come qui.)

Uno dei principali vantaggi di un simile diagramma secondo me è che si vede immediatamente l'effetto relativo dei cambiamenti nelle diverse variabili predittive (IV) sulla risposta (DV). Anche quando non è necessario il diagramma per alcun calcolo, può avere un grande valore in termini di semplice visualizzazione degli effetti relativi delle variabili.


Domanda di follow-up dai commenti:

Funziona allo stesso modo per le regressioni non lineari o polinomiali?

E(Y)y^=b0+bx1+f(x2)

dove uno dei due:

f

f

x1

x2f

inserisci qui la descrizione dell'immagine

x2

inserisci qui la descrizione dell'immagine

f(x)x=2.23

È possibile che tali funzioni abbiano diversi punti di svolta, in cui le scale si spezzerebbero e si ribalterebbero più volte, ma la linea dell'asse ha solo due lati.

Con i nomogrammi a punti questo non presenta alcuna difficoltà, dal momento che si possono spostare leggermente verso l'alto o verso il basso sezioni di scala aggiuntive (o più in generale, ortogonalmente alla direzione dell'asse) fino a quando non si verifica alcuna sovrapposizione.

(Più di un punto di svolta può essere un problema per i nomogrammi di tipo allineamento; una soluzione mostrata nel libro di Harrell è quella di compensare leggermente tutte le scale da una linea di riferimento, su cui viene effettivamente presa la posizione del valore.)


Y

Esempi di tutte queste situazioni sono disponibili nelle Strategie di modellizzazione della regressione di Harrell .



Solo un paio di note collaterali

  1. Preferirei di gran lunga vedere due scale dei punti, nella parte superiore e inferiore della sezione pertinente; altrimenti è difficile "allinearsi" con precisione perché bisogna indovinare cos'è "verticale". Qualcosa come questo:

    inserisci qui la descrizione dell'immagine

    Tuttavia, come noto nei commenti, per l'ultima sezione del diagramma (punti totali e predittore lineare) forse un'alternativa migliore a una seconda scala di punti sarebbe quella di avere semplicemente una coppia di scale back-to-back (punti totali su una lato, predittore lineare dall'altro), in questo modo:

    inserisci qui la descrizione dell'immagine

    quindi evitiamo la necessità di sapere cosa sia "verticale".

  2. Con solo due predittori continui e un singolo fattore binario, possiamo facilmente costruire un nomogramma di allineamento più tradizionale :

    inserisci qui la descrizione dell'immagine

    In questo caso trovi semplicemente i valori wte qsecsulle loro scale e li unisci con una linea; dove attraversano l' mpgasse, leggiamo il valore (mentre la amvariabile determina quale lato mpgdell'asse leggi). In un caso semplice come questo, questo tipo di nomogrammi è più veloce e più semplice da usare, ma può essere meno facile da generalizzare a molti predittori, dove possono diventare ingombranti. Il nomogramma a punti nella tua domanda (come implementato in Regressione Modeling Strategies e nel rmspacchetto in R) può aggiungere più variabili senza soluzione di continuità. Questo può essere piuttosto un vantaggio quando si tratta di interazioni.


Grazie per una spiegazione chiara e illustrata. Funziona allo stesso modo per le regressioni non lineari o polinomiali?
anche il

1
Ho modificato la mia risposta per rispondere a questa domanda aggiuntiva.
Glen_b -Restate Monica

2
Questo è un post fantastico Glen. Penso che modificherò il metodo nomogramdella funzione plotper aggiungere la Pointsscala aggiuntiva per impostazione predefinita. Ottimo consiglio !!
Frank Harrell,

1
@FrankHarrell No, perché non leggi alcuna relazione tra punti e punti totali: non è nemmeno necessario che siano sulla stessa pagina. Il problema è trovare 'verticale' in modo da poter leggere con precisione dai punti totali al predittore lineare. Se quelle due scale sono molto vicine o toccanti, piuttosto che dire a due pollici di distanza, non è un problema. Quando sono distanti tra loro, alcuni gradi di errore nel trovare la verticale possono significare un discreto errore nel risultato. Tuttavia, nella prima sezione sono ancora necessarie due scale di punti, poiché è possibile avere molti predittori e non possono essere tutti adiacenti alla scala dei punti.
Glen_b -Restate Monica

1
@FrankHarrell Personalmente penso che una griglia ingombra il display e tende a oscurarne il valore; Evito le griglie quando posso. Inoltre non consentono lo stesso grado di precisione nel diventare verticale a meno che la griglia non sia fine come la scala (che penso sarebbe terribile visivamente), Senza un'opzione per uno, finirei per modificare in una seconda scala di punti (proprio come ho fatto qui) per farlo stare in quello che vedrei come uno stato utilizzabile per i due scopi che vedo avere (I. fare una stima ragionevolmente accurata dei valori previsti senza oscurare ii. la chiarezza dei relativi contributi alla risposta) ..
Glen_b -Reinstate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.