Forse questa domanda è ingenua, ma:
Se la regressione lineare è strettamente correlata al coefficiente di correlazione di Pearson, esistono delle tecniche di regressione strettamente correlate ai coefficienti di correlazione di Kendall e Spearman?
Forse questa domanda è ingenua, ma:
Se la regressione lineare è strettamente correlata al coefficiente di correlazione di Pearson, esistono delle tecniche di regressione strettamente correlate ai coefficienti di correlazione di Kendall e Spearman?
Risposte:
Esiste un modo molto semplice per utilizzare quasi tutte le misure di correlazione per adattarsi alle regressioni lineari e che riproduce i minimi quadrati quando si utilizza la correlazione di Pearson.
Considera che se la pendenza di una relazione è , la correlazione tra e dovrebbe essere .y - β x x 0
In effetti, se fosse diverso da , ci sarebbe qualche relazione lineare non catturata - che è ciò che la misura di correlazione prenderebbe.
Potremmo quindi stimare la pendenza trovando il pendio, che rende il campione di correlazione tra e essere . In molti casi, ad esempio quando si utilizzano misure basate sul rango, la correlazione sarà una funzione graduale del valore della stima dell'inclinazione, quindi potrebbe esserci un intervallo in cui è zero. In tal caso normalmente definiamo la stima del campione come centro dell'intervallo. Spesso la funzione di passaggio salta da sopra lo zero a sotto lo zero in un determinato punto, e in quel caso la stima si trova nel punto di salto. y- ˜ β xx0
Questa definizione funziona, ad esempio, con tutti i tipi di correlazioni basate sul rango e solide. Può anche essere usato per ottenere un intervallo per la pendenza (nel solito modo - trovando le pendenze che segnano il confine tra solo correlazioni significative e solo correlazioni insignificanti).
Questo definisce solo la pendenza, ovviamente; una volta stimata la pendenza, l'intercetta può essere basata su una stima della posizione adatta calcolata sui residui . Con le correlazioni basate sul rango la mediana è una scelta comune, ma ci sono molte altre scelte adatte.
Ecco la correlazione tracciata rispetto alla pendenza per i car
dati in R:
La correlazione di Pearson attraversa 0 alla pendenza dei minimi quadrati, 3.932
La correlazione di Kendall attraversa 0 alla pendenza di Theil-Sen, 3.667
La correlazione di Spearman incrocia 0 dando una pendenza "Spearman-line" di 3.714
Queste sono le tre stime di pendenza per il nostro esempio. Ora abbiamo bisogno di intercettazioni. Per semplicità userò solo il residuo medio per la prima intercetta e la mediana per le altre due (in questo caso non importa molto):
intercept
Pearson: -17.573 *
Kendall: -15.667
Spearman: -16.285
* (la piccola differenza dai minimi quadrati è dovuta all'errore di arrotondamento nella stima dell'inclinazione; senza dubbio c'è un errore di arrotondamento simile nelle altre stime)
Le corrispondenti linee adattate (utilizzando la stessa combinazione di colori di cui sopra) sono:
Modifica: per confronto, la pendenza di correlazione del quadrante è 3.333
Sia la correlazione di Kendall che le pendenze di correlazione di Spearman sono sostanzialmente più robuste per gli outlier influenti rispetto ai minimi quadrati. Vedi qui per un esempio drammatico nel caso del Kendall.
Il modello PO è un caso speciale di una famiglia più generale di modelli di probabilità cumulativa (alcuni chiamano link cumulativi) che includono i modelli probit, i rischi proporzionali e i log-log complementari. Per un caso di studio vedi il capitolo 15 dei miei Dispense .
Aaron Han (1987 in econometria) ha proposto lo stimatore di correlazione di rango massimo che si adatta ai modelli di regressione massimizzando tau. Dougherty e Thomas (2012 nella letteratura di psicologia) hanno recentemente proposto un algoritmo molto simile. C'è un sacco di lavoro sull'MRC che illustra le sue proprietà.
Aaron K. Han, Analisi non parametrica di un modello di regressione generalizzato: lo stimatore di correlazione di rango massimo, Journal of Econometrics, Volume 35, Issues 2-3, luglio 1987, pagine 303-316, ISSN 0304-4076, http: // dx.doi.org/10.1016/0304-4076(87)90030-3 . ( http://www.sciencedirect.com/science/article/pii/0304407687900303 )
Dougherty, MR e Thomas, RP (2012). Processo decisionale solido in un mondo non lineare. Revisione psicologica, 119 (2), 321. Estratto da http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf .