Risposte:
Tuttavia, l'intervallo limitato aumenta la possibilità di una relazione non lineare tra la variabile dipendente ( ) e le variabili indipendenti ( ). Alcuni indicatori aggiuntivi di questo includono:
Maggiore variazione dei valori residui quando trova al centro del suo intervallo, rispetto alla variazione dei residui ai due estremi dell'intervallo.
Ragioni teoriche per specifiche relazioni non lineari.
Prova di specifiche errate del modello (ottenute nei modi consueti).
Significato dei termini quadratici o di ordine superiore in .
Considera una reespressione non lineare di nel caso in cui una di queste condizioni sia valida.
Esistono molti modi per riesprimere per creare relazioni più lineari con . Ad esempio, qualsiasi funzione crescente definita sull'intervallo può essere "piegata" per creare una funzione crescente simmetrica tramite . Se diventa arbitrariamente grande e negativo come argomento si avvicina a , la versione piegata di mapperà in tutti i numeri reali. Esempi di tali funzioni includono il logaritmo e qualsiasi potenza negativa. L'uso del logaritmo equivale al "collegamento logit" consigliato da @ user603. Un altro modo è lasciareessere il CDF inverso di qualsiasi distribuzione di probabilità e definire . L'uso di una distribuzione normale fornisce la trasformazione "probit".
Un modo per sfruttare le famiglie di trasformazioni è quello di sperimentare: provare una probabile trasformazione, eseguire una rapida regressione della trasformata rispetto a e testare i residui: dovrebbero apparire indipendenti dai valori previsti di (omoscedastici e non correlati) . Questi sono segni di una relazione lineare con le variabili indipendenti. Aiuta anche se i residui dei valori previsti trasformati indietro tendono ad essere piccoli. Ciò indica che la trasformazione ha migliorato l'adattamento. Per resistere agli effetti dei valori anomali, utilizzare metodi di regressione robusti come i minimi quadrati ripetutamente pesati .x i y
È importante considerare perché i valori sono limitati nell'intervallo 0-70. Ad esempio, se sono il numero di risposte corrette in un test di 70 domande, è necessario considerare i modelli per le variabili "numero di successi", come la regressione binomiale sovradispersa. Altri motivi potrebbero portarti ad altre soluzioni.
Trasformazione dei dati: ridimensiona i tuoi dati in e modellali usando un modello glm con un collegamento logit.
Modifica: quando ridimensionate un vettore (cioè dividete tutti gli elementi per la voce più grande), di regola, prima di farlo, schermate (bulbi oculari) per i valori anomali.
AGGIORNARE
Supponendo che tu abbia accesso a R, porterei la parte di modellazione con una solida routine glm, vedi nel pacchetto .