Determinazione della migliore funzione di adattamento della curva di adattamento dalle funzioni lineari, esponenziali e logaritmiche


18

Contesto:

Da una domanda su Mathematics Stack Exchange (posso creare un programma) , qualcuno ha una serie di punti e vuole adattarci una curva, lineare, esponenziale o logaritmica. Il solito metodo è iniziare scegliendo uno di questi (che specifica il modello), quindi eseguire i calcoli statistici.X-y

Ma ciò che si vuole veramente è trovare la curva "migliore" tra lineare, esponenziale o logaritmica.

Apparentemente, si potrebbero provare tutti e tre e scegliere la curva più adatta dei tre in base al miglior coefficiente di correlazione.

Ma in qualche modo sento che non è del tutto kosher. Il metodo generalmente accettato è quello di scegliere prima il modello, uno di quei tre (o qualche altra funzione di collegamento), quindi dai dati calcolare i coefficienti. E la raccolta post facto è la raccolta delle ciliegie. Ma per me se stai determinando una funzione o coefficienti dai dati è sempre la stessa cosa, la tua procedura sta scoprendo la cosa migliore ... (diciamo che quale funzione è anche un altro coefficiente o essere scoperto).

Domande:

  • È appropriato scegliere il modello più adatto tra i modelli lineari, esponenziali e logaritmici, sulla base di un confronto delle statistiche di adattamento?
  • In tal caso, qual è il modo più appropriato per farlo?
  • Se la regressione aiuta a trovare i parametri (coefficienti) in una funzione, perché non può esserci un parametro discreto per scegliere da quale delle tre famiglie di curve verrà la migliore?

1
Ho aggiunto il tag di selezione del modello per tua comodità: il collegamento attraverso di esso produrrà un gran numero di thread direttamente rilevanti. Altri tag che vale la pena guardare includono aic . Dovresti infine scoprire che nell'affermazione matematica di questo problema mancano due elementi essenziali: una descrizione di come e perché i punti potrebbero deviare da una curva teorica e un'indicazione del costo di non ottenere esattamente la curva giusta. In assenza di tali elementi, esistono molti approcci diversi che possono produrre risposte diverse, dimostrando che "il migliore" è mal definito.
whuber

1
Puoi mettere da parte una percentuale dei tuoi dati per eseguire la convalida sul modello e scegliere il modello che si adatta meglio a quel set di dati di convalida. Quindi in sostanza avresti tre set distinti per dividere i tuoi dati in 1. i dati per formare un singolo modello 2. dati che convalida ogni modello che ti consente di selezionare il modello migliore e 3. i tuoi dati di validazione finale effettivi che non vengono toccati .
Kleineg,

1
@kleineg Sembra la direzione giusta. La scelta del modello (ad es. Tra lin / exp / log) è come un singolo modello di iperparametro, che sono in qualche modo solo un altro stadio di parametri regolari, e si può generalizzare entrando in esso da fasi separate di treno / convalida / test.
Mitch,

Rilevante: {Un modo sottile per adattarsi] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - la scelta tra più funzioni del modello (ad esempio exp vs linear vs log) è solo un altro parametro. Potresti pensarlo come un iperparametro (che richiederebbe una fase di validazione) o un parametro regolare in una complicata funzione di combinazione (dove verrebbe testato in una fase di test).
Mitch

Risposte:


9
  • Potresti voler dare un'occhiata al software gratuito chiamato Eureqa . Ha lo scopo specifico di automatizzare il processo di ricerca sia della forma funzionale che dei parametri di una determinata relazione funzionale.
  • Se si stanno confrontando modelli, con un numero diverso di parametri, si vorrà generalmente utilizzare una misura di adattamento che penalizzi i modelli con più parametri. Esiste una ricca letteratura su quale misura di adattamento è più appropriata per il confronto tra modelli e le questioni diventano più complicate quando i modelli non sono nidificati. Sarei interessato a sentire quello che gli altri pensano sia l'indice di confronto dei modelli più adatto dato il tuo scenario (come punto laterale, recentemente c'è stata una discussione sul mio blog sugli indici di confronto dei modelli nel contesto del confronto di modelli per l'adattamento delle curve).
  • Dalla mia esperienza, i modelli di regressione non lineare vengono utilizzati per ragioni che vanno oltre il semplice adattamento statistico ai dati forniti:
    1. I modelli non lineari effettuano previsioni più plausibili al di fuori dell'intervallo di dati
    2. I modelli non lineari richiedono meno parametri per un adattamento equivalente
    3. I modelli di regressione non lineare sono spesso applicati in domini in cui esiste una sostanziale ricerca preliminare e la teoria che guida la selezione del modello.

5

Questa è una domanda valida in domini molto diversi.

Il modello migliore è quello in grado di prevedere i punti dati che non sono stati utilizzati durante la stima dei parametri. Idealmente, si calcola i parametri del modello con un sottoinsieme del set di dati e si valuta la prestazione di adattamento su un altro set di dati. Se sei interessato ai dettagli, effettua una ricerca con "convalida incrociata".

Quindi la risposta alla prima domanda è "No". Non puoi semplicemente prendere il modello più adatto. Immagine che si sta adattando a un polinomio con N ° grado in N punti dati. Sarà perfetto, perché tutto il modello passerà esattamente su tutti i punti dati. Tuttavia, questo modello non si generalizzerà a nuovi dati.

Il modo più appropriato, per quanto posso dire, è calcolare quanto il tuo modello può generalizzare ad altri set di dati usando metriche che puniscono simultaneamente l'ampiezza dei residui e il numero di parametri nel tuo modello. AIC e BIC sono alcune di queste metriche di cui sono a conoscenza.


3

Dato che molte persone esplorano abitualmente l'adattamento di varie curve ai propri dati, non so da dove provengano le tue prenotazioni. Certo, c'è il fatto che un quadratico si adatterà sempre almeno così come un lineare, e un cubico, almeno così come un quadratico, quindi ci sono modi per testare il significato statistico di aggiungere un termine non lineare e quindi di evitare inutili complessità. Ma la pratica di base per testare diverse forme di relazione è solo una buona pratica. In effetti, si potrebbe iniziare con una regressione del loess molto flessibile per vedere quale sia il tipo più plausibile di curva da adattare.


3
Se quadratic si adatta meglio, dipenderà da come hai funzionalizzato in forma. In particolare, se si utilizza una misura di adattamento che penalizza i modelli con più parametri (ad esempio, AIC), ad esempio, l'adattamento può essere peggiore per quadratico rispetto a lineare.
Jeromy Anglim

9
@rolando, forse sono frainteso, ma, francamente, questo tipo di consiglio (non qualificato) è proprio il tipo di cosa che, come statistici, dedichiamo così tanto tempo a "combattere". In particolare, se l'OP è interessato a qualcosa al di là del semplice adattamento della curva, ad esempio la previsione o l'inferenza, è molto importante comprendere le implicazioni dell'approccio "basta provare qualunque cosa si possa pensare" delle statistiche.
cardinale

2
Ho problemi a conciliare questi commenti con la tradizione di Anscombe, Tukey, Mosteller, Tufte e Cleveland, che sottolinea la necessità di visualizzare ed esplorare i dati e di dimensionare la forma di ogni relazione prima di costruire un modello, stabilire coefficienti, o generare altre statistiche.
rolando2

8
Ci sono molte polemiche sui loro approcci. Un modo troppo semplificato per sintetizzare questi problemi è che se vuoi conoscere i modelli e fare nuove scoperte che necessitano di una successiva convalida, l'analisi esplorativa è appropriata. Se si desidera trarre l'inferenza (ragionamento da un campione particolare alla popolazione generale utilizzando valori P, intervalli di confidenza, ecc.), Non tanto.
Frank Harrell,

4
Questo è il thread di commenti più produttivo che ho visto su CV, in particolare lo scambio b / t rolando2 (3 ^) e @FrankHarrell. Trovo anche entrambi gli approcci molto interessanti. La mia risoluzione è quello di pianificare cosa prova in anticipo e solo / fit test che il modello per il bene di trarre conclusioni definitive, ma anche accuratamente esplorare i dati (w / o credere i risultati necessariamente premuto) per il gusto di scoprire quello che potrebbe essere vero e pianificazione per il prossimo studio. (Devo eseguire un altro studio e verificare qualcosa, sarebbe interessante / importante?) La chiave è la tua convinzione sui risultati di queste analisi.
gung - Ripristina Monica

3

Hai davvero bisogno di trovare un equilibrio tra la scienza / teoria che porta ai dati e ciò che i dati ti dicono. Come altri hanno già detto, se ti lasci adattare a qualsiasi possibile trasformazione (polinomi di qualsiasi grado, ecc.), Finirai per adattarti e ottenere qualcosa di inutile.

Un modo per convincerti di questo è attraverso la simulazione. Scegli uno dei modelli (lineare, esponenziale, log) e genera i dati che seguono questo modello (con una scelta dei parametri). Se la varianza condizionale dei valori y è piccola rispetto alla diffusione della variabile x, un semplice diagramma renderà ovvio quale modello è stato scelto e quale sia la "verità". Ma se si sceglie un insieme di parametri in modo che non sia ovvio dai grafici (probabilmente il caso in cui una soluzione analitica è di interesse), analizzare ciascuno dei 3 modi e vedere quale dà la migliore "soluzione". Mi aspetto che scoprirai che l'adattamento "migliore" spesso non è quello "vero".

D'altra parte, a volte vogliamo che i dati ci dicano il più possibile e potremmo non avere la scienza / teoria per determinare completamente la natura della relazione. L'articolo originale di Box and Cox (JRSS B, vol. 26, n. 2, 1964) discute i modi per confrontare tra diverse trasformazioni sulla variabile y, il loro insieme di trasformazioni ha lineari e log come casi speciali (ma non esponenziali) , ma nulla nella teoria del documento ti limita solo alla loro famiglia di trasformazioni, la stessa metodologia potrebbe essere estesa per includere un confronto tra i 3 modelli che ti interessano.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.