Come modellare una variabile target limitata?


17

Ho 5 variabili e sto cercando di prevedere la mia variabile target che deve essere compresa tra 0 e 70.

Come posso utilizzare questa informazione per modellare meglio il mio obiettivo?

Risposte:


21

max(0,min(70,y^))y^

Tuttavia, l'intervallo limitato aumenta la possibilità di una relazione non lineare tra la variabile dipendente ( ) e le variabili indipendenti ( ). Alcuni indicatori aggiuntivi di questo includono:yxi

  • Maggiore variazione dei valori residui quando trova al centro del suo intervallo, rispetto alla variazione dei residui ai due estremi dell'intervallo.y^

  • Ragioni teoriche per specifiche relazioni non lineari.

  • Prova di specifiche errate del modello (ottenute nei modi consueti).

  • Significato dei termini quadratici o di ordine superiore in .xi

Considera una reespressione non lineare di nel caso in cui una di queste condizioni sia valida.y

Esistono molti modi per riesprimere per creare relazioni più lineari con . Ad esempio, qualsiasi funzione crescente definita sull'intervallo può essere "piegata" per creare una funzione crescente simmetrica tramite . Se diventa arbitrariamente grande e negativo come argomento si avvicina a , la versione piegata di mapperà in tutti i numeri reali. Esempi di tali funzioni includono il logaritmo e qualsiasi potenza negativa. L'uso del logaritmo equivale al "collegamento logit" consigliato da @ user603. Un altro modo è lasciareyxif[0,70]yf(y)f(70y)f0f[0,70]Gessere il CDF inverso di qualsiasi distribuzione di probabilità e definire . L'uso di una distribuzione normale fornisce la trasformazione "probit".f(y)=G(y/70)

Un modo per sfruttare le famiglie di trasformazioni è quello di sperimentare: provare una probabile trasformazione, eseguire una rapida regressione della trasformata rispetto a e testare i residui: dovrebbero apparire indipendenti dai valori previsti di (omoscedastici e non correlati) . Questi sono segni di una relazione lineare con le variabili indipendenti. Aiuta anche se i residui dei valori previsti trasformati indietro tendono ad essere piccoli. Ciò indica che la trasformazione ha migliorato l'adattamento. Per resistere agli effetti dei valori anomali, utilizzare metodi di regressione robusti come i minimi quadrati ripetutamente pesati .x i yyxiy


1
+1 Ottima risposta! Puoi estrapolare o citare il motivo per cui "una maggiore variazione dei valori residui quando y_ che si trova al centro del suo intervallo, rispetto alla variazione dei residui alle due estremità del campo" è un'indicazione di non linearità?
Andy McKenzie,

1
@Andy In teoria, tale eteroscedasticità non ha alcuna connessione diretta con la non linearità, ma in pratica si osserva spesso che una trasformazione stabilizzante la varianza tende a linearizzare le relazioni. Qualsiasi curva che sale continuamente da un minimo (come 0) a un massimo (come 70) avrà una pendenza massima da qualche parte nel mezzo di tale intervallo, causando spesso anche una maggiore varianza residua. Questo è il motivo per cui ci aspetteremmo che i residui mostrino una maggiore varianza nel mezzo e meno nelle estremità. In caso contrario , possiamo sperare in relazioni lineari con la variabile non trasformata .
whuber

5

È importante considerare perché i valori sono limitati nell'intervallo 0-70. Ad esempio, se sono il numero di risposte corrette in un test di 70 domande, è necessario considerare i modelli per le variabili "numero di successi", come la regressione binomiale sovradispersa. Altri motivi potrebbero portarti ad altre soluzioni.


2

Trasformazione dei dati: ridimensiona i tuoi dati in [0,1] e modellali usando un modello glm con un collegamento logit.

Modifica: quando ridimensionate un vettore (cioè dividete tutti gli elementi per la voce più grande), di regola, prima di farlo, schermate (bulbi oculari) per i valori anomali.

AGGIORNARE

Supponendo che tu abbia accesso a R, porterei la parte di modellazione con una solida routine glm, vedi glmrob() nel pacchetto robustbase .


3
Il serraggio dei dati come raccomandato qui distorcherà le pendenze in una regressione.
whuber

1
Inoltre, non vedo il valore immediato nel serraggio basato su quantili campione, quando il vero intervallo di dati è noto a priori.
cardinale il

@Cardinal Il punto è che (ad es.) Il 99% dei dati risiede in [0,1] e che i valori rimanenti sono 70: un vincolo compatto sull'intervallo non assicura l'assenza di valori anomali! Pertanto, sono d'accordo con lo spirito del consiglio offerto da @ user603, nonostante la mia preoccupazione per il possibile pregiudizio nell'approccio proposto.
whuber

@whuber: La mia inclinazione in una tale impostazione sarebbe quella di utilizzare un GLM che era resistente agli outlier piuttosto che a questa forma di bloccaggio. Quindi lasciare che l'adattamento del modello si adatti tramite il coefficiente "intercetta" e il "pendenza".
cardinale il

@Cardinal Sì, questa è una soluzione valida. Spero che l'uso di tale GLM sia ancora accompagnato da procedure diagnostiche per verificare la linearità (approssimativa) e l'indipendenza dei residui.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.