La linea della migliore vestibilità non sembra una buona vestibilità. Perché?


82

Dai un'occhiata a questo grafico di Excel: il grafo

La linea di adattamento "buon senso" sembrerebbe essere una linea quasi verticale attraverso il centro dei punti (modificata a mano in rosso). Tuttavia, la linea di tendenza lineare come deciso da Excel è la linea nera diagonale mostrata.

  1. Perché Excel ha prodotto qualcosa che (all'occhio umano) sembra essere sbagliato?
  2. Come posso produrre una linea più adatta che sembra un po 'più intuitiva (cioè qualcosa come la linea rossa)?

Aggiornamento 1. Un foglio di calcolo Excel con dati e grafico è disponibile qui: dati di esempio , CSV in Pastebin . Le tecniche di regressione di tipo 1 e tipo 2 sono disponibili come funzioni di Excel?

Aggiornamento 2. I dati rappresentano un parapendio che si arrampica in una termica mentre va alla deriva con il vento. L'obiettivo finale è studiare come la forza e la direzione del vento variano con l'altezza. Sono un ingegnere, NON un matematico o statistico, quindi le informazioni contenute in queste risposte mi hanno dato molte più aree di ricerca.


5
Ad essere sincero, dubito che si tratti di una regressione tra Deming e OLS. Guardando il piccolo variabilità assoluta in ed , preferirei che questo possa essere un problema numerico in Excel. Puoi modificare la tua domanda per includere i dati? yxy
S. Kolassa - Ripristina Monica l'

12
Questo fenomeno fu una delle maggiori scoperte statistiche del XIX secolo (se non di tutti i tempi). Si chiama regressione verso la media . In effetti, è proprio la ragione per cui questa procedura statistica è chiamata "regressione"!
whuber

3
Dovrei aggiungere che il motivo principale per cui gli accoppiamenti sembrano così diversi è che la trama esagera così tanto la scala nell'asse y. Disegnandolo dove entrambe le scale sono proporzionali alle deviazioni standard marginali, potresti arrivare a conclusioni completamente diverse su quale adattamento sia più "buon senso".
whuber

6
@StephanKolassa - Nota quanto grande sarebbe l'errore se tu la linea rossa e per ; la linea rossa non può adattarsi meglio ai minimi quadrati. Excel ha certamente i suoi problemi, ma penso che questo non sia uno di questi. x = - 0,714yx=0.714
jbowman

7
Questo è già stato affrontato numerose volte sul sito (ad es. Vedi qui ). Quando capisci cos'è una linea di regressione, è facile capire perché è la linea nera. Ponetevi due domande: 1: qual è il valore medio di y quando x è circa 0.712? 2. Cosa dovrebbero prevedere le linee rosse e nere? ... [Per il momento ho trattenuto la chiusura come duplicato poiché ci sono problemi specifici con i tuoi dati su cui varrebbe la pena concentrare nuovamente la tua domanda]
Glen_b

Risposte:


111

C'è una variabile dipendente?

La linea di tendenza in Excel deriva dalla regressione della variabile dipendente "lat" sulla variabile indipendente "lon". La cosiddetta "linea di senso comune" può essere ottenuta quando non si designano variabili dipendenti e si trattano sia la latitudine che la longitudine allo stesso modo. Quest'ultimo può essere ottenuto applicando PCA . In particolare, è uno dei vettori eigen della matrice di covarianza di queste variabili. Puoi pensarlo come una linea che minimizza la distanza più breve da qualsiasi dato punto a una linea stessa, cioè disegna una perpendicolare a una linea e minimizzi la somma di quelli per ogni osservazione.(xi,yi)

inserisci qui la descrizione dell'immagine

Ecco come potresti farlo in R:

> para <- read.csv("para.csv")
> plot(para)
> 
> # run PCA
> pZ=prcomp(para,rank.=1)
> # look at 1st PC
> pZ$rotation
           PC1
lon 0.09504313
lat 0.99547316
> 
> colMeans(para) # PCA was centered
       lon        lat 
-0.7129371 53.9368720 
> # recover the data from 1st PC
> pc1=t(pZ$rotation %*% t(pZ$x) )
> # center and show
> lines(pc1 + t(t(rep(1,123))) %*% c)

La linea di tendenza che hai ottenuto da Excel è un senso comune come il vettore di automa da PCA quando capisci che nella regressione di Excel le variabili non sono uguali. Qui stai minimizzando una distanza verticale da a , dove l'asse y è latitudine e l'asse x è una longitudine. y ( x i )yiy(xi)

Se vuoi trattare le variabili allo stesso modo o meno dipende dall'obiettivo. Non è la qualità intrinseca dei dati. Devi scegliere lo strumento statistico giusto per analizzare i dati, in questo caso scegli tra la regressione e la PCA.

Una risposta a una domanda che non è stata posta

Quindi, perché nel tuo caso una linea di tendenza (regressione) in Excel non sembra essere uno strumento adatto al tuo caso? Il motivo è che la linea di tendenza è una risposta a una domanda che non è stata posta. Ecco perché.

La regressione di Excel sta provando a stimare i parametri di una riga . Quindi, il primo problema è che la latitudine non è nemmeno una funzione di una longitudine, a rigor di termini (vedi la nota alla fine del post), e non è nemmeno il problema principale. Il vero problema è che non sei nemmeno interessato alla posizione del parapendio, sei interessato al vento.lat=a+b×lon

Immagina che non ci fosse vento. Un parapendio farebbe lo stesso cerchio ancora e ancora. Quale sarebbe la linea di tendenza? Ovviamente, sarebbe una linea orizzontale piatta, la sua pendenza sarebbe zero, ma ciò non significa che il vento soffi in direzione orizzontale!

Ecco una trama simulata per quando c'è un forte vento lungo l'asse y, mentre un parapendio fa cerchi perfetti. Puoi vedere come la regressione lineare produce un risultato senza senso, una linea di tendenza orizzontale. In realtà, è anche leggermente negativo, ma non significativo. La direzione del vento è indicata da una linea rossa:yx

inserisci qui la descrizione dell'immagine

Codice R per la simulazione:

t=1:123
a=1 #1
b=0 #1/10
y=10*sin(t)+a*t
x=10*cos(t)+b*t

plot(x,y,xlim=c(-60,60))
xp=-60:60
lines(b*t,a*t,col='red')

model=lm(y~x)
lines(xp,xp*model$coefficients[2]+model$coefficients[1])

Quindi, la direzione del vento chiaramente non è affatto allineata con la linea di tendenza. Sono collegati, ovviamente, ma in modo non banale. Quindi, la mia affermazione che la linea di tendenza di Excel è una risposta ad alcune domande, ma non quella che hai posto.

Perché PCA?

Come hai notato, ci sono almeno due componenti del movimento di un parapendio: la deriva con un vento e un movimento circolare controllato da un parapendio. Questo si vede chiaramente quando si collegano i punti sulla trama:

inserisci qui la descrizione dell'immagine

Da un lato, il movimento circolare è davvero una seccatura per te: sei interessato al vento. D'altra parte, non si osserva la velocità del vento, si osserva solo il parapendio. Quindi, il tuo obiettivo è dedurre il vento inosservabile dalla lettura della posizione del parapendio osservabile. Questa è esattamente la situazione in cui strumenti come l'analisi dei fattori e la PCA possono essere utili.

L'obiettivo del PCA è di isolare alcuni fattori che determinano i risultati multipli analizzando le correlazioni nei risultati. È efficace quando l'output è collegato in modo lineare a fattori, che è il caso nei tuoi dati: la deriva del vento si aggiunge semplicemente alle coordinate del movimento circolare, ecco perché PCA sta lavorando qui.

Configurazione PCA

Quindi, abbiamo stabilito che PCA dovrebbe avere una possibilità qui, ma come lo configureremo effettivamente? Cominciamo con l'aggiunta di una terza variabile, il tempo. Assegneremo il tempo da 1 a 123 a ciascuna 123 osservazione, assumendo la frequenza di campionamento costante. Ecco come appare la trama 3D dei dati, rivelando la sua struttura a spirale:

inserisci qui la descrizione dell'immagine

La trama successiva mostra il centro immaginario di rotazione di un parapendio come cerchi marroni. Puoi vedere come va alla deriva sull'aereo lat-lon con il vento, mentre il parapendio mostrato con un punto blu lo circonda. Il tempo è sull'asse verticale. Ho collegato il centro di rotazione a una posizione corrispondente di un parapendio che mostra solo i primi due cerchi.

inserisci qui la descrizione dell'immagine

Il codice R corrispondente:

library(plotly)       

 para <- read.csv("C:/Users/akuketay/Downloads/para.csv")
 n=24

   para$t=1:123 # add time parameter

   # run PCA
     pZ3=prcomp(para)
     c3=colMeans(para) # PCA was centered
     # look at PCs in columns
       pZ3$rotation

       # get the imaginary center of rotation 
       pc31=t(pZ3$rotation[,1] %*% t(pZ3$x[,1]) )
     eye = pc31 + t(t(rep(1,123))) %*% c3
     eyedata = data.frame(eye)

     p = plot_ly(x=para[1:n,1],y=para[1:n,2],z=para[1:n,3],mode="lines+markers",type="scatter3d") %>%
       layout(showlegend=FALSE,scene=list(xaxis = list(title = 'lat'),yaxis = list(title = 'lon'),zaxis = list(title = 't'))) %>%
     add_trace(x=eyedata[1:n,1],y=eyedata[1:n,2],z=eyedata[1:n,3],mode="markers",type="scatter3d") 
     for( i in 1:n){
         p = add_trace(p,x=c(eyedata[i,1],para[i,1]),y=c(eyedata[i,2],para[i,2]),z=c(eyedata[i,3],para[i,3]),color="black",mode="lines",type="scatter3d")
       }

subplot(p)

La deriva del centro della rotazione del parapendio è causata principalmente dal vento, e il percorso e la velocità della deriva sono correlati con la direzione e la velocità del vento, variabili non osservabili di interesse. Ecco come appare la deriva quando proiettata sul piano lat-lon:

inserisci qui la descrizione dell'immagine

Regressione PCA

Quindi, in precedenza abbiamo stabilito che la regressione lineare regolare non sembra funzionare molto bene qui. Abbiamo anche capito perché: perché non riflette il processo sottostante, perché il movimento del parapendio è altamente non lineare. È una combinazione di movimento circolare e una deriva lineare. Abbiamo anche discusso del fatto che in questa situazione l'analisi dei fattori potrebbe essere utile. Ecco uno schema di un possibile approccio alla modellazione di questi dati: regressione PCA . Ma pugno ti mostrerò la curva adattata di regressione PCA :

inserisci qui la descrizione dell'immagine

Questo è stato ottenuto come segue. Eseguire PCA sul set di dati che ha una colonna aggiuntiva t = 1: 123, come discusso in precedenza. Ottieni tre componenti principali. Il primo è semplicemente t. Il secondo corrisponde alla colonna lon e il terzo alla colonna lat.

Adatto questi ultimi due componenti principali a una variabile della forma , dove vengono estratti dall'analisi spettrale dei componenti. Capita di avere la stessa frequenza ma fasi diverse, il che non sorprende dato il movimento circolare.ω , φasin(ωt+φ)ω,φ

Questo è tutto. Per ottenere i valori adattati, recuperare i dati dai componenti montati collegando la trasposizione della matrice di rotazione PCA nei componenti principali previsti. Il mio codice R sopra mostra parti della procedura e il resto che puoi capire facilmente.

Conclusione

È interessante vedere quanto è potente la PCA e altri semplici strumenti quando si tratta di fenomeni fisici in cui i processi sottostanti sono stabili e gli input si traducono in output tramite relazioni lineari (o linearizzate). Quindi nel nostro caso il movimento circolare è molto non lineare ma l'abbiamo linearizzato facilmente usando le funzioni seno / coseno su un parametro tempo t. I miei grafici sono stati prodotti con poche righe di codice R come hai visto.

Il modello di regressione dovrebbe riflettere il processo sottostante, quindi solo tu puoi aspettarti che i suoi parametri siano significativi. Se questo è un parapendio alla deriva nel vento, un semplice diagramma a dispersione come nella domanda originale nasconderà la struttura temporale del processo.

Anche la regressione di Excel è stata un'analisi trasversale, per la quale la regressione lineare funziona meglio, mentre i dati sono un processo di serie temporali, in cui le osservazioni sono ordinate nel tempo. L'analisi delle serie temporali deve essere applicata qui ed è stata eseguita nella regressione della PCA.

Note su una funzione

Dal momento che un parapendio fa cerchi, ci saranno più latitudini corrispondenti a una singola longitudine. In matematica una funzione mappa un valore su un singolo valore . È una relazione molti-a-uno, il che significa che più possono corrispondere a , ma non più corrispondono a una singola . Ecco perché non è una funzione, a rigor di termini.x y x y y x l a t = f ( l o n )y=f(x)xyxyyxlat=f(lon)


11
Buona presa sulla struttura a spirale! Due commenti collaterali: è più facile lavorare con come parametrizzazione alternativa. Ci sono molti casi in cui scegliamo di fare una media su una periodicità che non è interessante o rilevante per il problema principale. a sin ωt+b cos ωt
Nick Cox,

11
Se vuoi trattarli allo stesso modo o meno dipende dall'obiettivo. Non è la qualità intrinseca dei dati. - Ottimo punto e +1.
Richard Hardy,

@NickCox, esatto, sarebbe stato anche meno lavoro
Aksakal

Vale la pena sottolineare che PCA è la generalizzazione della regressione dell'asse maggiore rispetto alla situazione in cui si hanno> 2 variabili. Ma dal momento che in questo caso ci sono solo 2 variabili, il nome standard per la tecnica sarebbe la regressione dell'asse maggiore (talvolta chiamata anche regressione ortogonale o regressione di tipo II).
Tom Wenseleers,

61

La risposta probabilmente ha a che fare con il modo in cui stai giudicando mentalmente la distanza dalla linea di regressione. La regressione standard (Tipo 1) riduce al minimo l'errore al quadrato, dove l'errore viene calcolato in base alla distanza verticale dalla linea .

La regressione di tipo 2 può essere più analoga al tuo giudizio sulla linea migliore. In esso, l'errore al quadrato minimizzato è la distanza perpendicolare alla linea . Ci sono una serie di conseguenze su questa differenza. Uno importante è che se si scambiano gli assi X e Y nella trama e si refit la linea, si otterrà una relazione diversa tra le variabili per la regressione di tipo 1. Per la regressione di tipo 2, la relazione rimane la stessa.

La mia impressione è che ci siano molte discussioni su dove usare la regressione di Tipo 1 contro Tipo 2, quindi suggerisco di leggere attentamente le differenze prima di decidere quale applicare. La regressione di tipo 1 è spesso raccomandata nei casi in cui un asse è controllato sperimentalmente o almeno misurato con errori di gran lunga inferiori rispetto all'altro. Se queste condizioni non sono soddisfatte, la regressione di tipo 1 inclinerà le pendenze verso 0 e pertanto si consiglia la regressione di tipo 2. Tuttavia, con un rumore sufficiente in entrambi gli assi, la regressione di tipo 2 tende apparentemente a inclinarli verso 1. Warton et al. (2006) e Smith (2009) sono buone fonti per comprendere il dibattito.

Si noti inoltre che esistono diversi metodi sottilmente diversi che rientrano nella vasta categoria della regressione di tipo 2 (asse maggiore, asse maggiore ridotto e regressione dell'asse maggiore standard) e che la terminologia relativa ai metodi specifici è incoerente.

Warton, DI, IJ Wright, DS Falster e M. Westoby. 2006. Metodi bivariati di adattamento della linea per allometria. Biol. Apocalisse 81: 259–291. doi: 10,1017 / S1464793106007007

Smith, RJ 2009. Sull'uso e l'abuso dell'asse maggiore ridotto per il raccordo. Am. J. Phys. Anthropol. 140: 476-486. doi: 10.1002 / ajpa.21090


MODIFICA :

@amoeba sottolinea che quella che chiamo regressione di tipo 2 sopra è anche conosciuta come regressione ortogonale; questo potrebbe essere il termine più appropriato. Come ho detto sopra, la terminologia in questo settore è incoerente, il che merita ulteriore attenzione.


19
Dibattito sull'opportunità di utilizzare il tipo 1 o il tipo 2? Non c'è nulla di cui discutere quando sai qual è il tuo obiettivo (funzione oggettiva o funzione di perdita). E se non lo fai, bene, allora dovresti chiarirlo prima di procedere.
Richard Hardy,

7
Il tipo 2 produce anche risultati senza senso se entrambi gli assi utilizzano unità diverse.
John Dvorak,

4
Stai usando "Tipo 1" e "Tipo 2" come se fossero termini standard. Sono loro? Non ho mai diretto nessuno a chiamare la regressione abituale e la regressione ortogonale "tipo 1" e "tipo 2".
ameba dice Ripristina Monica il

2
@RichardHardy Certo, chiarire il proprio obiettivo specifico è il migliore. Ma come ho detto nella risposta, la mia impressione è che ci sia un dibattito in corso sul loro utilizzo in un sottogruppo di casi - e quei documenti che cito (così come le raccomandazioni contrastanti che continuo a ricevere dai revisori) sembrano confermarlo.
mkt - Ripristina Monica il

3
@mkt, grazie per il tuo chiarimento. In effetti, potrebbe esserci un dibattito tra le persone che non sono sicure di ciò che stanno cercando. Lì, il focus del dibattito è quale dei due è più rilevante per il loro obiettivo in materia. Quello che volevo sottolineare è che non c'è dibattito una volta che il tuo obiettivo è ben definito, cioè l'obiettivo in materia viene tradotto in un linguaggio statistico (il che è inevitabile se si devono impiegare metodi statistici). Quindi credo che siamo d'accordo, stiamo solo sottolineando diverse parti dell'argomento.
Richard Hardy,

31

La domanda a cui Excel tenta di rispondere è: "Supponendo che y dipenda da x, quale riga predice y meglio". La risposta è che a causa delle enormi variazioni in y, nessuna linea potrebbe essere particolarmente buona e ciò che Excel visualizza è il meglio che puoi fare.

Se prendi la tua linea rossa proposta e continui fino a x = -0.714 e x = -0.712, scoprirai che i suoi valori sono lontani dal grafico ed è ad una distanza enorme dai corrispondenti valori y .

La domanda a cui Excel risponde non è "quale linea è più vicina ai punti dati", ma "quale linea è la migliore per prevedere valori y da valori x", e lo fa correttamente.


4
Esattamente. L'assunto di base è "x è dato, y è misurato / previsto".
Floris,

12

Non voglio aggiungere nulla alle altre risposte, ma voglio dire che sei stato fuorviato da una cattiva terminologia, in particolare il termine "linea di adattamento" che viene utilizzato in alcuni corsi di statistica.

Intuitivamente, una "linea della migliore misura" sembrerebbe la tua linea rossa. Ma la linea prodotta da Excel non è una "linea della migliore misura"; non sta nemmeno cercando di esserlo. È una linea che risponde alla domanda: dato il valore di x, qual è la mia migliore previsione possibile per y? o in alternativa, qual è il valore y medio per ciascun valore x?

Notare l'asimmetria qui tra xey; l'uso del nome "line of best fit" lo oscura. Così fa l'uso di Excel di "trendline".

È spiegato molto bene al seguente link:

https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm

Potresti desiderare qualcosa di più simile a quello che viene chiamato "Tipo 2" nella risposta sopra o "Linea SD" nella pagina del corso sulle statistiche di Berkeley.


11

Parte del problema ottico deriva dalle diverse scale: se si utilizza la stessa scala su entrambi gli assi, apparirà già diverso.

In altre parole, puoi fare in modo che la maggior parte di tali linee di "migliore adattamento" appaiano "non intuitive" estendendo una scala di un asse.


1
Sono d'accordo che questa è la risposta - l'intervallo X dei valori è largo circa 0,02, ma l'intervallo Y solo circa 0,005 - in effetti il ​​grafico dovrebbe essere circa 4 volte più largo di quanto sia alto e sarebbe ovvio che il la migliore vestibilità sarebbe orizzontale. Il fenomeno nella domanda è puramente visivo a causa delle diverse scale.
Remco Gerlich,

3
@RemcoGerlich Siamo d'accordo sul fatto che, come mostrato nella domanda, le proporzioni del grafico non sono utili. Ma il suggerimento di aver bisogno di un grafico 4 volte più largo perché numericamente gli intervalli sono in quel rapporto è non plausibile e certamente non è un dato di fatto. Se le unità su uno degli assi fossero cambiate di un fattore 1000, suggeriresti un rapporto di 4000 o 0,004? È probabile che il rapporto 4x sia solo un effetto collaterale di diverse unità.
Nick Cox,

4
Le altre risposte danno la risposta corretta. Questo purtroppo no. Se ridimensioniamo i valori, in modo tale da ottenere la stessa immagine visiva, ma con assi uguali, è ancora un problema di adattamento "tipo 1" vs "tipo 2".
Hans Janssen,

1
Parla del "buon senso" più adatto, ciò che è giusto "per l'occhio umano". E quindi il ridimensionamento degli assi è la cosa principale che è rilevante.
Remco Gerlich,

Ha un punto, a volte ciò che sembra intuitivo è influenzato da cose sciocche come il ridimensionamento, anche se non è così. Qui abbiamo una vera discrepanza tra ciò che Excel fa e ciò che OP vuole
Aksakal

4

Alcuni individui hanno notato che il problema è visivo: il ridimensionamento grafico impiegato produce informazioni fuorvianti. Più in particolare, il ridimensionamento di "lon" è tale che sembra essere una spirale stretta che suggerisce che la linea di regressione fornisce un adattamento inadeguato (una valutazione a cui sono d'accordo, la linea rossa tracciata fornirebbe errori al quadrato inferiori se i dati sono stati modellati nel modo presentato).

Di seguito fornisco un diagramma a dispersione creato in Excel con il ridimensionamento per "lon" modificato in modo che non produca la spirale stretta nel diagramma a dispersione. Con questo cambiamento, la linea di regressione ora fornisce un adattamento visivo migliore e penso che aiuti a dimostrare come il ridimensionamento nel diagramma a dispersione originale abbia fornito una valutazione fuorviante dell'adattamento.

Penso che la regressione funzioni bene qui. Non credo sia necessaria un'analisi più complessa.

inserisci qui la descrizione dell'immagine

Per ogni interessato, ho tracciato i dati usando uno strumento di mappatura e ho mostrato la regressione adattata ai dati. I punti rossi sono i dati registrati e il verde è la linea di regressione.

inserisci qui la descrizione dell'immagine

E qui ci sono gli stessi dati in un diagramma a dispersione con linea di regressione; qui lat viene trattato come i punteggi dipendenti e lat vengono invertiti per adattarsi al profilo geografico.

inserisci qui la descrizione dell'immagine


1
La regressione non mostra la direzione di una deriva del vento
Aksakal,

Conosciamo solo lat e lon, e per i dati forniti mostra il cambiamento di uno rispetto all'altro.
Bryan

Cosa significa questa linea di tendenza?
Aksakal,

Supponendo che il primo punto nel file di dati sia la posizione di partenza, sembra che ci sia un leggero aumento a nord nel percorso via via più a est. I dati non forniscono informazioni sulla forza del vento o sull'altezza, ma forniscono la direzione - da est a nord.
Bryan

Correzione, il software di mappatura che ho usato richiede lat-lon, ma i suoi dati sono lon-lat, quindi la direzione del vento sarebbe lieve a nord-est, cioè c'è un leggero movimento orientale più il nord ha viaggiato (o un leggero movimento occidentale più a sud viaggiato).
Bryan

1

La regressione confusa dei minimi quadrati ordinari (OLS) (che minimizza la somma della deviazione quadrata rispetto ai valori previsti, (osservato-previsto) ^ 2) e la regressione dell'asse maggiore (che minimizza le somme dei quadrati della distanza perpendicolare tra ciascun punto e la linea di regressione, a volte questa viene definita regressione di tipo II, regressione ortogonale o regressione standardizzata del componente principale).

Se vuoi confrontare i due approcci solo in R, dai un'occhiata

data=read.csv("https://pastebin.com/raw/4TsstQYm")
require(lmodel2)
fit = lmodel2(lat ~ lon, data=data)
plot(fit,method="OLS") # ordinary least squares regression

inserisci qui la descrizione dell'immagine

plot(fit,method="MA") # major axis regression

inserisci qui la descrizione dell'immagine

Ciò che trovi più intuitivo (la tua linea rossa) è solo la regressione dell'asse maggiore, che visivamente parlando è davvero quella che appare più logica, in quanto minimizza la distanza perpendicolare ai tuoi punti. La regressione OLS sembrerà minimizzare la distanza perpendicolare ai tuoi punti se la variabile xey è sulla stessa scala di misurazione e / o ha la stessa quantità di errore (puoi vederla semplicemente in base al teorema di Pitagora). Nel tuo caso, la tua variabile y ha molto più diffusione su di essa, quindi la differenza ...


0

La risposta PCA è la migliore perché penso che sia quello che dovresti fare data la descrizione del tuo problema, tuttavia la risposta PCA potrebbe confondere PCA e regressione che sono cose completamente diverse. Se si desidera estrapolare questo particolare set di dati, è necessario eseguire la regressione e probabilmente si desidera eseguire la regressione Deming (che immagino a volte vada di tipo II, mai sentito parlare di questa descrizione). Tuttavia, se vuoi scoprire quali direzioni sono più importanti (autovettori) e hanno una metrica del loro impatto relativo sul set di dati (autovalori), allora PCA è l'approccio corretto.


4
Questa è principalmente una serie di commenti su altre risposte. Sarebbe meglio commentare direttamente ciascuno. Non vedo che la risposta di @Aksakal confonde la PCA e la regressione.
Nick Cox,

Volevo commentare direttamente, ma non ero abbastanza rispettabile. Non penso che Aksakal stia confondendo la regressione, ma ho pensato che valga la pena sottolineare all'OP che PCA e regressione sono totalmente diversi.
Andrew H,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.