I risultati della regressione hanno limite superiore imprevisto

Provo a prevedere un punteggio di equilibrio e ho provato diversi metodi di regressione. Una cosa che ho notato è che i valori previsti sembrano avere una sorta di limite superiore. Cioè, il saldo effettivo è in , ma le mie previsioni sono in cima a circa . Il diagramma seguente mostra il saldo effettivo rispetto al saldo previsto (previsto con regressione lineare): $[0.0, 1.0)$ $0.8$

reale vs previsto

E qui ci sono due grafici di distribuzione degli stessi dati:

distribuzione iniziale

Poiché i miei predittori sono molto distorti (dati utente con distribuzione della legge di potenza), ho applicato una trasformazione Box-Cox, che modifica i risultati nel modo seguente:

reale vs previsto dopo la trasformazione di Box-Cox

distribuzione dopo trasformazione Box-Cox

Sebbene cambi la distribuzione delle previsioni, esiste ancora quel limite superiore. Quindi le mie domande sono:

Quali sono le possibili ragioni di tali limiti superiori nei risultati di previsione?
Come posso correggere le previsioni in modo che corrispondano alla distribuzione dei valori effettivi?

Bonus: poiché la distribuzione dopo la trasformazione di Box-Cox sembra seguire le distribuzioni dei predittori trasformati, è possibile che questo sia direttamente collegato? In tal caso, è possibile applicare una trasformazione per adattare la distribuzione ai valori effettivi?

Modifica: ho usato una semplice regressione lineare con 5 predittori.

— Mennny
fonte

Sono davvero interessato a vedere dove va. Questo è solo un modello di regressione lineare? Quanti predittori?

— Shadowtalker

Come nota a margine: poiché la variabile del risultato è delimitata da 0 e 1, un semplice modello di regressione lineare probabilmente prevede valori al di fuori di quei limiti che, ovviamente, non sono validi. Ci sono altre opzioni da considerare in questo caso.

— COOLSerdash,

L'input limitato implica un output limitato per un modello lineare. Quali sono i limiti dei predittori (trasformati)? Puoi mostrarci una tabella riassuntiva dell'adattamento del modello?

— cardinale il

Mennny: Tutto ciò di cui hai veramente bisogno (per cominciare) sono i valori dei coefficienti e i limiti sui predittori. Abbinando i segni uno per uno, è possibile determinare rapidamente la previsione minima e massima (supponendo che i predittori soddisfino sempre i limiti, implicitamente o esplicitamente).

— cardinale il

@cardinale: ho controllato i limiti dei predittori e sono stato in grado di confermare la tua ipotesi. Con i predittori indicati (non trasformati) la previsione massima è ~ 0,79. Puoi per favore "copiare / incollare" il tuo commento come una risposta in modo che io possa accettarlo? Come posso procedere? Immagino che ciò dimostri che non esiste una relazione lineare tra i miei predittori e il risultato?

— Mennny,

Risposte:

Il tuo dep var è limitato tra 0 e 1 e quindi OLS non è del tutto appropriato, suggerisco ad esempio la regressione beta e potrebbero esserci altri metodi. Ma in secondo luogo, dopo la trasformazione box-cox, dici che le tue previsioni sono limitate, ma il tuo grafico non lo mostra.

— Leonardo Auslender
fonte

Mentre ci si concentra molto sull'uso delle regressioni che obbediscono ai limiti di 0/1, e questo è ragionevole (e importante!), La domanda specifica del perché il tuo LPM non prevede risultati superiori a 0,8 mi sembra una domanda leggermente diversa .

In entrambi i casi, c'è un modello noto nei tuoi residui, vale a dire, il tuo modello lineare si adatta male alla coda superiore della tua distribuzione. Ciò significa che c'è qualcosa di non lineare nel modello corretto.

Soluzioni che considerano anche il limite 0/1 dei dati: probit, logit e regressione beta. Questo limite è fondamentale e deve essere affrontato affinché il tuo lavoro sia rigoroso, data la tua distribuzione relativamente vicina a 1, e quindi il gran numero di risposte su quell'argomento.

Di solito, tuttavia, il problema è che un LPM supera il limite 0/1. Questo non è il caso qui! Se non ti preoccupi del limite 0/1 e desideri attivamente una soluzione che può essere adattata con (x'x) ^ - 1 (x'y), allora considera che forse il modello non è rigorosamente lineare. Adattare il modello in funzione di x ^ 2, prodotti incrociati di variabili indipendenti o registri di variabili indipendenti può aiutare a migliorare l'adattamento e possibilmente a migliorare il potere esplicativo del modello in modo da stimare valori superiori a 0,8.

— RegressForward
fonte