test statistico per vedere se la relazione è lineare o non lineare


9

Ho un set di dati di esempio come segue:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

inserisci qui la descrizione dell'immagine

Dalla figura, si può suggerire che tra un certo intervallo di "Volume" e "Potenza" la relazione è lineare, quindi quando "Volume" diventa relativamente piccolo la relazione diventa non lineare. Esiste un test statistico per illustrare questo?

Per quanto riguarda alcune delle raccomandazioni riportate nelle risposte al PO:

L'esempio mostrato qui è semplicemente un esempio, il set di dati che ho sembra simile alla relazione vista qui sebbene più rumorosa. L'analisi che ho condotto finora mostra che quando analizzo un volume di un liquido specifico, la potenza di un segnale aumenta drasticamente quando c'è un volume basso. Quindi, supponiamo che avessi solo un ambiente in cui il volume fosse compreso tra 15 e 20, sembrerebbe quasi una relazione lineare. Tuttavia, aumentando la gamma di punti, ovvero avendo volumi più piccoli, vediamo che la relazione non è affatto lineare. Ora sto cercando qualche consiglio statistico su come mostrarlo statisticamente. Spero che abbia senso.


5
Ci sono diverse cose che stanno succedendo qui. Innanzitutto, ovviamente una relazione apparirà lineare a condizione che gli intervalli delle variabili siano opportunamente limitati. In secondo luogo, l' eteroscedasticità dei dati è una caratteristica tanto importante quanto la relazione non lineare: la dispersione è maggiore a volumi elevati e bassi poteri rispetto a volumi bassi e alti poteri. Indipendentemente da ciò, cosa vuoi testare esattamente? La linearità della relazione attraverso l'intera gamma?
whuber

4
In realtà, vorrei riprendere l'osservazione dell'eteroscedasticità: la trama dà l' apparenza di tale, ma è un'illusione causata dalle pendenze relativamente ripide a volumi più bassi. (Il volume in termini di potere, tuttavia, ha una relazione estremamente eteroscedastica.) Una volta stabilito che la variazione del potere non è eteroscedastica, questo esclude alcuni tipi di analisi (non vorremmo applicare trasformazioni non lineari del potere) e suggerisce favorire gli altri (come i minimi quadrati non lineari o un modello lineare generalizzato), una volta stabilita la non linearità.
whuber

Ho ora aggiunto una breve descrizione del problema in questione. Grazie per i tuoi commenti finora, questi sono molto apprezzati e mi stanno aiutando a riflettere sul problema.
KatyB,

Perché non testare l'effetto quadratico?
AdamO,

2
@Simon Non ho usato alcun test, ma puoi vedere che questo è omoscedastico tracciando la dimensione tipica dei residui rispetto al Volume. Ecco alcuni Rcodici: plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue"). Mostra una dimensione residua quasi costante su tutta la gamma.
whuber

Risposte:


4

Questo è fondamentalmente un problema di selezione del modello. Ti incoraggio a selezionare un insieme di modelli fisicamente plausibili (lineare, esponenziale, forse una relazione lineare discontinua) e usa Akaike Information Criterion o Bayesian Information Criterion per selezionare il migliore - tenendo presente il problema dell'eteroscedasticità che @whuber sottolinea.


2

Hai provato a cercarlo su Google !? Un modo per farlo è quello di adattare una potenza maggiore o altri termini non lineari al modello e verificare se i loro coefficienti sono significativamente diversi da 0.

Ci sono alcuni esempi qui http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

Nel tuo caso potresti voler dividere il tuo set di dati in due sezioni per verificare la non linearità per il volume <5 e la linearità per il volume> 5.

L'altro problema che hai è che i tuoi dati sono eteroschedastici, il che viola il presupposto della normalità per i dati di regressione. Il link fornito fornisce anche esempi di test per questo.


Il collegamento è interrotto.
Jatin,

2

Suggerisco di utilizzare la regressione non lineare per adattare un modello a tutti i tuoi dati. Qual è il punto di scegliere un volume arbitrario e adattare un modello a volumi inferiori a quello e un altro modello a volumi più grandi? C'è qualche motivo, oltre l'aspetto della figura, per usare 5 come soglia netta? Credi davvero che dopo una determinata soglia di volume, la curva ideale sia lineare? Non è più probabile che si avvicini all'orizzontale all'aumentare del volume, ma non è mai del tutto lineare?

Naturalmente, la selezione dello strumento di analisi deve dipendere dalle domande scientifiche a cui si sta tentando di rispondere e dalla conoscenza precedente del sistema.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.