Forma della fiducia e intervalli di predizione per la regressione non lineare


13

Le bande di confidenza e previsione intorno a una regressione non lineare dovrebbero essere simmetriche attorno alla linea di regressione? Significa che non assumono la forma della clessidra come nel caso delle bande per la regressione lineare. Perché?

Ecco il modello in questione: Ecco la figura:

F(X)=(UN-D1+(XC)B)+D

http://i57.tinypic.com/2q099ok.jpg

ed ecco l'equazione:

inserisci qui la descrizione dell'immagine


La tua domanda non è chiara, perché ti sposti dal chiedere se sono "supposti essere simmetrici" nella prima frase, implicando che non sono nella frase 2 e chiedendo (presumibilmente) perché non sono nella frase 3. Puoi fare questo più coerente / chiaro?
gung - Ripristina Monica

OK, lascia che te lo chieda in questo modo: perché le bande di confidenza e previsione sono simmetriche attorno alla linea di regressione quando la regressione non è lineare ma assumono una forma a clessidra quando è lineare?
Serge

00

Hai ragione. La band attraversa il territorio negativo. Tuttavia, non sono interessato ai valori delle bande stesse, ma piuttosto ai valori EC50 corrispondenti ai limiti di banda. Esiste un'alternativa alla costruzione delle bande in questo modo?
Serge

Sì, ma come ho detto, possono complicarsi. I minimi quadrati e i metodi delle serie temporali generalizzati possono far fronte alla correlazione seriale. Le trasformazioni non lineari della variabile dipendente sono uno strumento per gestire errori non additivi. Uno strumento più sofisticato è un modello lineare generalizzato. Le scelte dipendono in parte dalla natura della variabile dipendente. A proposito, anche se non sono sicuro di cosa intendi per "valori EC50" (sembra che tu stia modellando le relazioni dose-risposta), qualsiasi cosa calcolata dalle bande illustrate sarà sospetta.
whuber

Risposte:


8

Le bande di fiducia e previsione dovrebbero in genere allargarsi vicino alle estremità - e per lo stesso motivo per cui lo fanno sempre nella regressione ordinaria; generalmente l'incertezza dei parametri porta a intervalli più ampi vicino alle estremità rispetto al centro

Puoi vederlo simulando abbastanza facilmente, sia simulando i dati di un dato modello, sia simulando dalla distribuzione campionaria del vettore dei parametri.

I soliti calcoli (approssimativamente corretti) effettuati per la regressione non lineare comportano un'approssimazione lineare locale (questo è dato nella risposta di Harvey), ma anche senza quelli possiamo avere un'idea di ciò che sta succedendo.

Tuttavia, l'esecuzione dei calcoli effettivi non è banale e può darsi che i programmi possano prendere una scorciatoia nel calcolo che ignori tale effetto. È anche possibile che per alcuni dati e alcuni modelli l'effetto sia relativamente piccolo e difficile da vedere. In effetti con gli intervalli di previsione, specialmente con una grande varianza ma molti dati a volte può essere difficile vedere la curva nella regressione lineare ordinaria: possono sembrare quasi dritti ed è relativamente facile discernere la deviazione dalla rettilineità.

Ecco un esempio di quanto sia difficile vedere solo con un intervallo di confidenza per la media (gli intervalli di previsione possono essere molto più difficili da vedere perché la loro variazione relativa è molto inferiore). Ecco alcuni dati e un minimo dei quadrati non lineari, con un intervallo di confidenza per la media della popolazione (in questo caso generato dalla distribuzione del campionamento poiché conosco il vero modello, ma qualcosa di molto simile potrebbe essere fatto mediante approssimazione asintotica o bootstrap):

inserisci qui la descrizione dell'immagine

I limiti viola sembrano quasi paralleli alle previsioni blu ... ma non lo sono. Ecco l'errore standard della distribuzione campionaria di tali previsioni medie:

inserisci qui la descrizione dell'immagine

che chiaramente non è costante.


Modificare:

Quelle espressioni "sp" che hai appena pubblicato provengono direttamente dall'intervallo di previsione per la regressione lineare !


stai anche dicendo che l'aumento dell'incertezza dei parametri quando ci si allontana dal centro dovrebbe causare l'allargamento della banda alle estremità anche in caso di regressione non lineare, ma che non è altrettanto ovvio? O c'è una ragione teorica per cui questo allargamento non si verifica in caso di regressione non lineare? Le mie band sembrano certamente molto simmetriche.
Serge

1
Tale ampliamento dovrebbe essere tipico, ma non accadrà allo stesso modo con tutti i modelli non lineari e non sarà così ovvio con tutti i modelli, e poiché non è così facile da fare, non può essere calcolato in questo modo da un determinato programma . Non so come siano state calcolate le bande che stai guardando - non sono un lettore di mente e non riesco a vedere il codice di un programma di cui non hai nemmeno menzionato il nome.
Glen_b -Restate Monica

@ user1505202, questa è una domanda difficile a cui rispondere completamente. Puoi dire qual è il tuo modello (la sua forma funzionale)? Puoi allegare un'immagine della figura che ti mette in imbarazzo?
gung - Ripristina Monica

1
Grazie. Ho i numeri e sono essenzialmente costanti: la differenza tra la linea di regressione e ciascun limite di previsione varia da 18.21074 al centro a 18.24877 alle estremità. Quindi, un leggero allargamento, ma molto leggero. A proposito, @gung, ho ottenuto l'equazione che calcola l'intervallo di predizione. È:Y-hat +/- sp(Y-hat)
Serge,

1
Riguarda il tipo di variazione che potresti vedere con un intervallo di previsione con campioni di grandi dimensioni. Che cos'è sp?
Glen_b

5

La matematica della sicurezza informatica e le bande di previsione delle curve adattate dalla regressione non lineare sono spiegate in questa pagina con convalida incrociata. Mostra che le bande non sono sempre / di solito simmetriche.

Ed ecco una spiegazione con più parole e meno matematica:

Per prima cosa, definiamo G | x, che è il gradiente dei parametri con un valore particolare di X e usando tutti i valori più adatti dei parametri. Il risultato è un vettore, con un elemento per parametro. Per ogni parametro, è definito come dY / dP, dove Y è il valore Y della curva dato il particolare valore di X e tutti i valori dei parametri più adatti, e P è uno dei parametri.)

G '| x è quel vettore gradiente trasposto, quindi è una colonna anziché una riga di valori. Cov è la matrice di covarianza (inversa Assia dall'ultima iterazione). È una matrice quadrata con il numero di righe e colonne pari al numero di parametri. Ogni elemento nella matrice è la covarianza tra due parametri. Usiamo Cov per riferirci alla matrice di covarianza normalizzata , dove ogni valore è compreso tra -1 e 1.

Ora calcola

c = G '| x * Cov * G | x.

Il risultato è un singolo numero per qualsiasi valore di X.

Le bande di confidenza e previsione sono centrate sulla curva di adattamento migliore e si estendono sopra e sotto la curva di una quantità uguale.

Le bande di confidenza si estendono sopra e sotto la curva di:

= sqrt (c) * sqrt (SS / DF) * CriticalT (% di confidenza, DF)

Le bande di previsione estendono un'ulteriore distanza sopra e sotto la curva, pari a:

= sqrt (c + 1) * sqrt (SS / DF) * CriticalT (Fiducia%, DF)

In entrambe queste equazioni, il valore di c (definito sopra) dipende dal valore di X, quindi le bande di confidenza e previsione non sono una distanza costante dalla curva. Il valore di SS è la somma dei quadrati per l'adattamento e DF è il numero di gradi di libertà (numero di punti dati meno numero di parametri). CriticalT è una costante della distribuzione t in base al livello di confidenza desiderato (tradizionalmente 95%) e al numero di gradi di libertà. Per limiti del 95% e un df abbastanza grande, questo valore è vicino a 1,96. Se DF è piccolo, questo valore è più alto.


Grazie Harvey. Sto lavorando per ottenere il gradiente dei parametri per la mia funzione. Per caso conosci un esempio funzionante, perché non sono chiaro su come sia ottenuta la matrice di covarianza.
Serge

Se si utilizza la demo del prisma di GraphPad, è possibile adattare i dati a qualsiasi modello desiderato e visualizzare la matrice di covarianza (un risultato facoltativo scelto nella scheda Diagnostica) e le bande di confidenza o previsione (sia come numeri che un grafico; scegliere anche in Scheda Diagnostica). Non è un buon esempio come esempio funzionante, ma almeno puoi confrontare la matrice di covarianza e vedere se il problema è prima o dopo ...
Harvey Motulsky,

Due cose, però. 1. Il prisma mi ha dato la matrice di Cov. Tuttavia, è solo un numero per l'intero set di dati. Non dovrei ottenere un valore per valore X? 2. Ricevo la banda di predizione nel grafico ma vorrei che l'output contenga i valori. Il prisma non sembra farlo. Sono molto nuovo di Prism e quindi potrei non aver cercato dappertutto, ma ci ho provato!
Serge,

1. La matrice di covarianza mostra il grado in cui i parametri sono intrecciati. Quindi esiste un valore per ogni coppia di parametri che si richiede di adattare alla regressione non lineare. 2. Guarda la scheda Range per chiedere a Prism di creare una tabella delle coordinate XY della curva, con valori più / meno per le bande di confidenza o previsione. 3. Per supporto tecnico con Prism, inviare un'e-mail a support@graphpad.com Utilizzare questo forum per domande statistiche, non per supporto tecnico.
Harvey Motulsky,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.