Va bene tracciare una linea di regressione per i dati classificati (correlazione di Spearman)?


12

Ho dei dati per i quali ho calcolato la correlazione di Spearman e voglio visualizzarli per una pubblicazione. La variabile dipendente viene classificata, la variabile indipendente non lo è. Quello che voglio visualizzare è più la tendenza generale che la pendenza effettiva, quindi ho classificato l'indipendente e applicato la correlazione / regressione di Spearman. Ma proprio quando ho tracciato i miei dati e stavo per inserirli nel mio manoscritto, mi sono imbattuto in questa affermazione (su questo sito Web ):

Non userai quasi mai una linea di regressione per la descrizione o la previsione quando esegui la correlazione del rango di Spearman, quindi non calcola l'equivalente di una linea di regressione .

e più tardi

Puoi rappresentare graficamente i dati di correlazione del rango di Spearman come faresti per una regressione o correlazione lineare. Non mettere una linea di regressione sul grafico , tuttavia; sarebbe fuorviante inserire una linea di regressione lineare su un grafico dopo averla analizzata con correlazione di rango.

Il fatto è che le linee di regressione non sono così diverse da quando non classifico l'indipendente e calcolo la correlazione di Pearson. La tendenza è la stessa, ma a causa delle tasse esorbitanti per la grafica a colori nelle riviste sono andato con la rappresentazione monocromatica e i punti dati reali si sovrappongono così tanto che non è riconoscibile.

Potrei ovviare a questo, ovviamente, creando due diversi grafici: uno per i punti dati (classificato) e uno per la linea di regressione (non classificato), ma se si scopre che la fonte che ho citato è sbagliata o il problema non così problematico nel mio caso, mi renderebbe la vita più semplice. (Ho visto anche questa domanda , ma non mi ha aiutato.)

Modifica per ulteriori informazioni:

La variabile indipendente sull'asse x rappresenta il numero di funzioni e la variabile dipendente sull'asse y rappresenta il rango se gli algoritmi di classificazione sono confrontati nelle loro prestazioni. Ora ho alcuni algoritmi che sono comparabili in media, ma quello che voglio dire con la mia trama è qualcosa del tipo: "Mentre il classificatore A migliora, più sono presenti le funzionalità, il classificatore B è migliore quando sono presenti meno funzionalità"

Modifica 2 per includere i miei grafici:

Ranghi degli algoritmi tracciati rispetto al numero di funzioni inserisci qui la descrizione dell'immagine

Classifiche degli algoritmi tracciati rispetto al numero classificato di funzionalità inserisci qui la descrizione dell'immagine

Quindi, per ripetere la domanda dal titolo:

Va bene tracciare una linea di regressione per i dati classificati di una correlazione / regressione di Spearman?


Quante categorie ci sono nella classifica? Hai verificato l'assunto di proporzionalità? Ci sono molti ricercatori che stanno perfettamente bene nel trattare i dati ordinali (es. Classifica) come continui. A volte se ci sono molte categorie, ha senso.
robin.datadrivers

1
Ci sono sette gradi, sono usati per un test di Friedman
Sentry

Risposte:


9

Una correlazione di rango può essere usata per rilevare l'associazione monotonica tra variati come si nota; come tale normalmente non tracciare una linea per quello.

Ci sono situazioni in cui ha perfettamente senso usare le correlazioni di rango per adattare effettivamente le linee a numerico-y vs numerico-x, sia Kendall che Spearman (o qualche altro). Vedi la discussione (e in particolare l'ultima trama) qui .

Questa non è la tua situazione, comunque. Nel tuo caso, sarei propenso a presentare solo un diagramma a dispersione dei dati originali, forse con una relazione regolare (ad esempio da LOESS).

Ti aspetti che la relazione sia monotona; potresti forse provare a stimare e tracciare una relazione monotonica. [C'è una funzione R discussa qui che può adattarsi alla regressione isotonica - mentre l'esempio è unimodale non isotonico, la funzione può fare adattamenti isotonici.]

Ecco un esempio del tipo di cosa intendo:

inserisci qui la descrizione dell'immagine

La trama mostra una relazione monotonica tra xe y; la curva rossa è un loess smooth (in questo caso generato in R da scatter.smooth), che è anche montonico (ci sono modi per ottenere adattamenti uniformi che sono garantiti essere monotonici, ma in questo caso il loess default smooth era monotonico, quindi Non ho sentito il bisogno di preoccuparmi.

inserisci qui la descrizione dell'immagine
Grafico del grado (y) vs grado (x), che indica una relazione monotonica. La linea verde mostra i ranghi dei valori adattati della curva di loess rispetto al rango (x).

La correlazione tra i ranghi di xey (cioè la correlazione di Spearman) è 0,892 - un'alta associazione monotonica. Allo stesso modo, la correlazione di Spearman tra la curva (montonica) adattata al loess ( ) e i valori y è anch'essa di 0,892. [Ciò non sorprende, tuttavia, dal momento che sarebbe vero per qualsiasi curva che è una funzione monotonica di x, che corrisponderebbe anche alla linea verde. La linea verde non è una linea di regressione tra rango (x) e rango (y), ma è la linea corrispondente a un adattamento monotonico nella trama originale. La "linea di regressione" per i dati classificati ha una pendenza di 0,892, non 1, quindi è un po '"piatta".]y^

Se non stai visualizzando altro che classifica (Y) vs X, penso che eviterei di usare le linee nei grafici; per quanto posso vedere non trasmettono molto valore al di sopra del coefficiente di correlazione. E già detto che sei interessato solo alla tendenza.

[Non so che è sbagliato tracciare una linea di regressione su un grafico classificato-y vs classificato-x, la difficoltà sarebbe la sua interpretazione.]


Grazie, la tua risposta è buona e spiegata bene. Tuttavia mi ha fatto capire che avrei potuto omettere informazioni cruciali. È ancora valido con le informazioni aggiuntive che ho fornito? I grafici seguono più tardi oggi quando sono al mio PC di lavoro.
Sentinella,

Dai un'occhiata al mio aggiornamento e vedi se pensi che qualcosa di questo abbia valore.
Glen_b

Sì, è utile, ma più in senso generale. Concordo anche sul fatto che l '"ingiustizia" deriva dalla difficoltà di interpretare la trama. Temo che le persone supporranno sempre che voglio prevedere il grado dalla funzione, anche se dichiaro che voglio solo mostrare la tendenza .
Sentinella,

Guardando i tuoi grafici --- mostri i ranghi, ma hai misure originali di performance su quali ranghi erano basati?
Glen_b

Sì, lo so, ma non possono essere usati qui, credimi. Il focus del mio studio è sul confronto degli algoritmi usando il test di Friedman, che li classifica. Esistono più set di dati con intervalli di prestazioni molto diversi, quindi solo il confronto tra loro è interessante qui.
Sentinella,

3

L'uso di di Spearman equivale a utilizzare le quote proporzionali ordinale modello logistico se si dovesse classificare il vettore durante la modellazione. Il modello PO in genere modella sulla scala originale e può includere termini non lineari. Per ottenere previsioni, è vantaggioso utilizzare un approccio basato sul modello. Ad esempio, è possibile tracciare rispetto alla media prevista o alla mediana prevista da un adattamento del modello PO. Esempi sono nei volantini di http://biostat.mc.vanderbilt.edu/rms .X X X Y YρXXXYY

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.