Quale tipo di regressione usare, considerando una variabile con limite superiore?


9

Non sono sicuro di quale metodo utilizzare per modellare la relazione tra due variabili ( ed ) durante l'esperimento descritto come segue:yxy

  • Ci sono 3 variabili: , ed . x yxaimxy
  • Il valore di viene impostato durante il funzionamento dell'esperimento. Tuttavia, e non sono sempre uguali. x x a i mxaimxxaim
  • Il coefficiente di correlazione di Pearson tra e è di circa 0,9. xxaimx
  • Coefficiente di correlazione di Pearson tra ed è molto meno: circa 0,5.yxy
  • y m a xy ha un valore massimo possibile ( ) che non può essere superato.ymax
  • Ciascun punto dati si ottiene dopo l'impostazione e lettura ed . x yxaimxy

Sebbene coefficiente di correlazione di Pearson tra ed non è grande, sembra tende ad aumentare con .y y xxyyx

Dopo aver fatto regressioni lineari semplici di e (e riconvertito quest'ultimo come , in modo da essere visualizzato sullo stesso grafico di per esempio), entrambe le pendenze sono positivi, ma la pendenza di è maggiore di quella di .x = g ( y ) g - 1 f g - 1 fy=f(x)x=g(y)g1fg1f

Ha senso dire o ? ( verrebbe raggiunto prima nel secondo caso.)x m a x = g ( y mxmax=f1(ymax) x m a xxmax=g(ymax)xmax

Considerando che è vincolato da , cosa si può dire del possibile valore massimo di che potrebbe essere raggiunto?y xymaxx

Per quanto ho capito, ha senso fare una regressione lineare della forma quando è la variabile indipendente e è la variabile dipendente. Tuttavia, in questo contesto, non sono sicuro che abbia senso considerare che è indipendente e dipende.xy=f(x)xx yyxy

Una regressione totale minima quadrata sarebbe più appropriata? Esistono altri metodi per determinare quali valori di possono essere raggiunti (e con quale probabilità)?xmax

(Se le cose, e non sembrano seguire una distribuzione normale, come altri tentativi sono stati fatti per cercare di raggiungere i valori più elevati di .)y xxyx


Cosa farai con questa relazione, se la troverai? Verificherai le ipotesi o ti interesserà solo l'aspetto? Se sono presenti molti punti dati, è necessario prendere in considerazione modelli non lineari.
mpiktas,

@mpiktas, in definitiva, vorrei sapere quale x_max è un obiettivo ragionevole che potrei provare a raggiungere su base regolare (non solo una volta), considerando che il raggiungimento o il superamento di y_max rende nullo l'esperimento (implicando effettivamente x = x_min per quel tentativo).
Bruno,

La regressione dei minimi quadrati totali (o errori nelle variabili) è indicata quando la varianza di diventa considerevole rispetto a quella di . La correlazione del 90% con suggerisce che la varianza di potrebbe essere sufficientemente piccola da poterla tranquillamente considerare come una variabile indipendente. Questo è qualcosa che puoi controllare dopo la regressione confrontando l'RMSE dei residui di vs. con gli RMSE dei residui di vs. . Dipende se è un problema; se vedi un limite superiore nel grafico a dispersione con , è una considerazione importante.y x mira x x mira x y x mira y max x miraxyxaimxxaimxyxaimymaxxaim
whuber

Risposte:


4

Voglio secondare i punti di @ King. È molto intuitivo sospettare che regredire su ("regressione diretta") e regredire su ("regressione inversa") debba essere lo stesso. Tuttavia , ciò non è né matematicamente vero né rispetto al modo in cui la regressione è correlata alla situazione che si sta analizzando. Se tracciate sull'asse verticale di un grafico e sull'asse orizzontale, potete vedere cosa sta succedendo. La regressione diretta trova la linea che minimizza le distanze verticali tra i punti dati e la linea, mentre la regressione inversa minimizza le distanze orizzontali. La linea che minimizza l'una minimizzerà solo l'altra sex x y y x r x y = 1.0 y x x m a x = f - 1 ( y m a x )yxxyyxrxy=1.0 . Devi decidere cosa vuoi spiegare e cosa vuoi usare per spiegarlo. La risposta a questa domanda ti dà quale variabile è e e specifica il tuo modello. Inoltre, (sempre seguendo @King), non sono d'accordo con il tentativo di dire , per gli stessi motivi. yxxmax=f1(ymax)

Per quanto riguarda l'emissione di una variabile limitata, in genere è ipotizzabile che l'importo "reale" possa aumentare, ma che non è possibile misurarlo. Ad esempio, un termometro esterno fuori dalla mia finestra arriva fino a 120, ma potrebbe essere 140 all'esterno in alcuni punti e ne avresti solo 120 come misura. Pertanto, la variabile avrebbe un limite superiore, ma la cosa a cui volevi davvero pensare non lo è. In questo caso, esistono modelli tobit per tali situazioni.

Un altro approccio sarebbe quello di utilizzare qualcosa di più robusto come il loess, che potrebbe essere perfettamente adeguato alle tue esigenze.


Mi scuso per il ritardo, non avevo notato la tua risposta. Dovrò leggere il modello Tobit.
Bruno,

Nessun problema. Per ulteriori informazioni sulla natura della regressione (rispetto alla regressione inversa) vedere qui . Per qualche aiuto con l'applicazione della regressione tobit utilizzando vari software, provare qui .
gung - Ripristina Monica

3

In primo luogo, non penso che abbia senso dire qui, è come implicare che sia una funzione uno a uno sebbene sia spiegato da altre variabili non osservate.x m a xxmax=f1(ymax)xmax

In secondo luogo, dipende davvero dal contesto per il quale uno da trattare come una variabile indipendente o dipendente. Dalla mia esperienza, a meno che la teoria non suggerisca fortemente un modo; in entrambi i casi è ok. Dai tuoi commenti del 7 ottobre, sembra che sia il dipendente mentre sia il indipendente.yxy

Se possibile, guarda i residui e vedi se riesci a spremerci qualcosa. Potrebbe esserci un'altra variabile che hai dimenticato; o può aiutare a trasformare le tue variabili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.