Questa è in qualche modo un'arte, ma ci sono alcune cose semplici e standard che si possono sempre tentare.
La prima cosa da fare è riesprimere la variabile dipendente ( ) per rendere normali i residui . Questo non è realmente applicabile in questo esempio, in cui i punti sembrano cadere lungo una curva non lineare liscia con pochissima dispersione. Quindi procediamo al passaggio successivo.y
La prossima cosa è di ri-esprimere la variabile indipendente ( ) per linearizzare la relazione. C'è un modo semplice e facile per farlo. Scegli tre punti rappresentativi lungo la curva, preferibilmente ad entrambe le estremità e al centro. Dalla prima cifra ho letto le coppie ordinate = , e . Senza alcuna informazione diversa da quella sembra sempre essere positiva, una buona scelta è quella di esplorare le trasformazioni di Box-Cox da per vari poteri , generalmente scelti per essere multipli di o e in genere trar(r,y)(10,7)(90,0)(180,−2)r r→(rp−1)/pp1/21/3−1 e . (Il valore limite quando avvicina a è .) Questa trasformazione creerà una relazione lineare approssimativa a condizione che la pendenza tra i primi due punti sia uguale alla pendenza tra la seconda coppia.1p0log(r)
Ad esempio, le pendenze dei dati non trasformati sono = - e = . Questi sono abbastanza diversi: uno è circa quattro volte l'altro. Provando ottengono pendenze di , ecc, che funziona a e : ora uno di loro è solo due volte l'altro, che è un miglioramento. Continuando in questo modo (un foglio di calcolo è conveniente), trovo che funzioni bene: le pendenze sono ora e(0−7)/(90−10)0.088(−2−0)/(180−90)−0.022p=−1/2-16.6-32.4p≈0-7.3-6.6y=α+βlog(r)y(0−7)/(90−1/2−1−1/2−10−1/2−1−1/2)−16.6−32.4p≈0−7.3−6.6, quasi lo stesso valore. Di conseguenza, dovresti provare un modello nel formato . Quindi ripetere: adattare una linea, esaminare i residui, identificare una trasformazione di per renderli approssimativamente simmetrici e iterare.y=α+βlog(r)y
John Tukey fornisce dettagli e molti esempi nel suo libro classico Exploratory Data Analysis (Addison-Wesley, 1977). Fornisce procedure simili (ma leggermente più coinvolte) per identificare le trasformazioni stabilizzanti della varianza di . Un set di dati campione che fornisce come esercizio riguarda dati centenari sulle pressioni del vapore di mercurio misurate a varie temperature. Seguendo questa procedura è possibile riscoprire la relazione Clausius-Clapeyron ; i residui dell'adattamento finale possono essere interpretati in termini di effetti quantici-meccanici che si verificano a distanze atomiche!y