Quando utilizzare la regressione non parametrica?


9

Sto utilizzando PROC GLM in SAS per adattare un'equazione di regressione del seguente modulo

Y=b0+b1X1+b2X2+b3X3+b4t

Il diagramma QQ dei risultati risultanti indica una deviazione dalla normalità. Qualsiasi trasformazione di non è utile per rendere normali i residui.Y

A questo punto, posso passare in sicurezza a metodi non parametrici come PROC LOESS.

Ho già usato PROC LOESS e la vestibilità sembra migliore di PROC GLM. Ma non ho molta conoscenza della regressione non parametrica. Non so quando scegliere la regressione non parametrica rispetto alla regressione parametrica.

Qualcuno può aiutarmi con questo?

Continuerò e aggiungerò un'altra domanda. Di seguito sono riportate le descrizioni delle mie variabili nel modello. A volte ricevo un costo previsto negativo. Questo non ha senso. Come posso risolvere questo problema?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time

2
Ovviamente puoi evitare di prevedere costi negativi modellandone il registro:log(Y)=b0+b1X1+b2X2+b3X3+b4t
Dirk Horsten

Risposte:


10

Prima di esaminare i grafici QQ dei residui, è necessario valutare la qualità dell'adattamento, tracciando i residui rispetto ai predittori nel modello (e possibilmente, anche rispetto ad altre variabili che non sono state utilizzate). La non linearità dovrebbe apparire in questo diagramma. Se l'effetto della variabile è davvero lineare, ci si aspetta che il grafico dei residui rispetto a sia "orizzontale", senza struttura visibile:xxx

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Cioè, un "blob" orizzontale casuale di punti, centrato attorno alla linea resid = 0.

Se l'effetto non è lineare, ti aspetti di vedere una certa curvatura in questo grafico. (e, per favore, ignora i QQplot fino a quando non hai risolto le non linearità, usando i grafici come sopra!)

Dovresti anche pensare a possibili interazioni (modellate di solito in base ai termini del prodotto), ovvero l'effetto di una variabile dipende dai livelli di un'altra (Se tutte e tre le variabili hanno valori elevati allo stesso tempo, forse questo mostra alcune particolarmente difficili paziente? In tal caso, potrebbero essere necessarie interazioni).

Se scegli un modello non lineare, dopo aver provato per interazioni e trasformazioni (hai provato log(Cost)?) Hai provato alcune trasformazioni box-cox? Dato che hai una regressione multipla, non penso che loesssia ciò di cui hai bisogno, dovresti cercare gam(modelli di additivi generalizzati, SAS dovrebbe averlo, in R è nel pacchetto mgcv).


1
Grazie per la preziosa informazione. Ho provato il log (costo) con la regressione lineare, ma non ha aiutato molto. Aggiungerò gli effetti di interazione e osserverò cosa succede. Sperimenterò anche di nuovo le trasformazioni. Terrò tutti aggiornati con i miei sviluppi e risultati.
ann

6

Un LOESS fornirà sempre una misura migliore della regressione, a meno che i dati non si trovino veramente su una linea retta. LOESS è un'approssimazione lineare localmente progettata per passare vicino ai dati. Questi metodi sono sostanzialmente esplorativi. E mentre è pericoloso estrapolare un modello lineare oltre i limiti dell'adattamento, l'estrapolazione sarebbe sconsiderata nel caso di LOESS.

Se il tuo modello ti dà costi negativi, è un buon segno che una regressione lineare non è appropriata per le variabili che hai. Dici di aver provato le trasformazioni. Hai preso il registro dei costi rispetto ai tuoi predittori?

Nella natura delle cose, è improbabile che esista una semplice relazione tra costo e variabili che menzioni. A volte lo scopo di una regressione lineare è semplicemente quello di dimostrare l'esistenza di una sorta di correlazione e forse di selezionare un insieme ragionevole di predittori.


1
Ha molto senso quando hai menzionato che i costi negativi indicano che la regressione lineare potrebbe non essere appropriata. Continuerò la mia analisi e aggiungerò alcune interazioni. Grazie.
ann

3

Bravo per fare analisi residue. Ti porta avanti rispetto al tipico analista. (La tua descrizione del modello è carente nel non descrivere la struttura dell'errore, però.) Dovresti considerare le trasformazioni degli X e guardare le trasformazioni degli Y. Mi rendo conto che SAS è dietro a R nella modellazione con adattamenti spline ma capisco che le versioni recenti hanno offerto quella capacità. Prendi in considerazione l'aggiunta di spline cubiche con restrizioni per i termini X. Come riferimento, il testo di Frank Harrell "Regressione Modeling Strategies" è difficile da battere. Ha solidi argomenti statistici per questo approccio. Si tratta di un approccio parametrico che consente la scoperta di strutture nei dati che altri saggi potrebbero perdere.


YX

C'è qualcosa di sbagliato nel trasformare i log e negli output che dipendono intuitivamente in modo lineare. Se si modella log(Y)=b0+b1log(X1)+b2log(X2)X1X2
Dirk Horsten,

Il tuo commento sembra piuttosto tangente alla mia risposta (e alla domanda poiché la divisione delle iniezioni per braccio non è mai stata menzionata) Spero che tu non pensi che le funzioni della spline siano equivalenti alle trasformazioni del log. La trasformazione del log di Y crea un modello in cui il modello è moltiplicativo nei predittori quando viene ricondotto alla scala dei costi. Questo è un cambiamento abbastanza grande e uno di cui non hai descritto adeguatamente i problemi all'interrogatore.
DWin

2

Penso che Kjetil ti abbia dato dei buoni suggerimenti. Aggiungo che i residui non normali non significano che devi passare dalla regressione lineare o non lineare alla regressione non parametrica. Andando alla regressione non parametrica si rinuncia alla struttura di una forma funzionale. Esistono solide alternative di regressione alla regressione OLS a cui potresti andare prima. Quindi modelli lineari generalizzati e modelli additivi generalizzati se sono necessari i passaggi successivi. LOESS dovrebbe essere, a mio avviso, la tua ultima risorsa. Penso di essere d'accordo con Kjetil su questo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.