Come posso confrontare i modelli senza adattarli?


8

La regressione e l'apprendimento automatico sono utilizzati nelle scienze naturali per testare ipotesi, stimare parametri e fare previsioni adattando i modelli ai dati. Tuttavia, quando ho un modello a priori , non voglio fare alcun adattamento --- per esempio, un modello di un sistema fisico deterministico calcolato dai primi principi. Voglio semplicemente sapere quanto il mio modello corrisponde ai dati e quindi capire quali parti del modello contribuiscono in modo significativo alla corrispondenza. Qualcuno potrebbe indicarmi un modo statisticamente rigoroso di farlo?

In termini più specifici, supponiamo di avere un sistema fisico per il quale ho misurato una variabile dipendente ( varia da 1 a , la dimensione del campione) in condizioni variabili descritte da tre variabili indipendenti , e . Sebbene il sistema reale che ha generato i dati sia complicato, ho fatto alcune ipotesi semplificative per derivare un modello teorico per il sistema, in modo tale cheyiinx1,ix2,ix3,if

yi=f(x1,i,x2,i,x3,i)+ϵi ,

dove è una funzione non lineare (e non linearizzabile) delle variabili indipendenti e è la differenza tra i valori previsti dal modello e quelli misurati. è completamente pre-specificato; non viene eseguito alcun adattamento e non vengono stimati parametri. Il mio primo obiettivo è determinare se è un modello ragionevole per il processo che ha prodotto i valori misurati .fϵiffyi

Ho anche sviluppato modelli semplificati e , che sono nidificati in (se questo è importante in questo caso). Il mio secondo obiettivo è quello di determinare se corrisponde ai dati significativamente migliori rispetto o , il che suggerisce che le caratteristiche che differenziano il modello dai modelli ed giocano un ruolo importante nel processo che genera .g(x1,i,x2,i)h(x1,i)ffghfghyi

Idee finora

Forse se ci fosse un modo per determinare il numero di parametri o il numero di gradi di libertà per il mio modello matematico, sarebbe possibile usare le procedure esistenti come un test del rapporto di verosimiglianza o un confronto AIC. Tuttavia, data la forma non lineare di e l'assenza di parametri evidenti, non sono sicuro se sia ragionevole assegnare parametri o assumere ciò che costituisce un grado di libertà.f

Ho letto che le misure di bontà di adattamento, come il coefficiente di determinazione ( ), possono essere utilizzate per confrontare le prestazioni del modello. Tuttavia, non mi è chiaro quale potrebbe essere la soglia per una differenza significativa tra i valori di . Inoltre, poiché non adatta il modello ai dati, la media dei residui non è zero e potrebbe essere diversa per ciascun modello. Pertanto, un modello ben adattato che tende a sottostimare i dati potrebbe produrre un valore di come modello imparziale ma scarsamente abbinato ai dati.R2R2R2

Ho anche letto un po 'di test sulla bontà di adattamento (ad es. Anderson-Darling), ma poiché le statistiche non sono il mio campo, non sono sicuro di quanto bene questo tipo di test si adatti al mio scopo. Qualsiasi consiglio sarebbe apprezzato.


Esistono valori di parametro per la funzione non lineare f()che devono essere determinati dall'adattamento ai dati o la funzione è f()completamente pre-specificata?
EdM,

@EdM Grazie per quello! Modificata la domanda per chiarire che fè completamente pre-specificato. È come una scatola nera che produce la risposta ydalle variabili di input e voglio sapere quanto sta andando bene rispetto alle scatole nere concorrenti. Una situazione analoga potrebbe tentare di valutare la corrispondenza tra l'output di una simulazione numerica e le misurazioni effettuate nel sistema fisico reale.
jbacks

Risposte:


4

In questa situazione stai essenzialmente confrontando le distribuzioni di tra i 3 modelli. Quindi è necessario esaminare questioni come:ϵi

  1. I valori medi di diversi tra i 3 modelli e qualcuno di questi valori medi è diverso da 0? (Cioè, c'è un pregiudizio in uno dei modelli e i 3 modelli differiscono nel pregiudizio?)ϵi
  2. Esiste una relazione sistematica di con i valori previsti dal modello corrispondente o con i valori delle variabili indipendenti ? Dovresti considerare tutte e tre le variabili indipendenti qui anche se il modello particolare ne utilizzava solo 1 o 2.ϵix1,i,x2,i,x3,1
  3. Ci sono differenze significative nelle varianze di tra i 3 modelli?ϵi

I dettagli su come affrontare al meglio queste domande dipenderanno dalla natura dei dati. Ad esempio, se i valori di sono necessariamente positivi e presentano errori di misurazione tipici proporzionali ai loro valori (come spesso accade nella pratica), potrebbe avere senso fare questa analisi sulle differenze tra trasformato in log e previsioni trasformate in log da ciascuno dei tuoi modelli.yiyi

L'analisi visiva delle distribuzioni di tra i 3 modelli, ad esempio con grafici di densità, sarebbe un primo passo importante.ϵi

A seconda della natura dei dati, i test statistici parametrici o non parametrici standard per le differenze nei valori medi, applicati a per i 3 modelli, affronteranno il problema 1.ϵi

Il numero 2 è essenzialmente quello che viene fatto per esaminare la qualità di qualsiasi modello montato; nel tuo caso questa analisi potrebbe mostrare domini di variabili indipendenti su cui uno o più dei tuoi modelli predefiniti non funzionano bene. di rispetto a valori previsti e valori di variabili indipendenti, con curve di loess per evidenziare le tendenze, per ciascuno dei tuoi modelli sarebbe utile.ϵi

Se non ci sono pregiudizi in alcun modello e l'analisi del numero 2 non mostra alcun problema, il numero 3 rimanente è se uno dei modelli è superiore in termini di precisione / varianza. Nel caso ideale con normalmente distribuito all'interno di ciascun modello, i test F potrebbero verificare l'uguaglianza delle varianze.ϵi


Pensare alla distribuzione residua come oggetto di confronto è un utile cambiamento di prospettiva! a) Vuoi conoscere eventuali analisi pubblicate che utilizzano un metodo simile? Sento che la mia situazione è insolita. Qualsiasi precedente pubblicato sarebbe utile. b) La media di ciascuna distribuzione residua è diversa da zero e visibilmente diversa per due dei miei modelli, e mi aspetto che ANOVA lo confermi. Sapendo questo, sarebbe ancora sensato esaminare le differenze tra la varianza di ogni distribuzione residua (Numero 3)? I modelli esposti tramite il numero 2 potrebbero invalidare un confronto delle varianze?
jbacks

1
@jbacks Non conosco un precedente pubblicato ma non credo che questo approccio sarebbe una vendita difficile se ci fossero solide basi teoriche per i tuoi modelli. In questa analisi basata sulla teoria, concentrarsi sulle ragioni del bias sistematico (errore medio diverso da zero, Problema I) tra previsioni e osservazioni. Ciò sembrerebbe arrivare direttamente al valore relativo dei modelli. Il problema II (qualsiasi modello di ampiezza / direzione dell'errore correlato a valori variabili indipendenti o valori previsti) dovrebbe illustrare dove i modelli si stanno smarrendo. I confronti delle varianze tra i modelli sono meno interessanti.
EdM

1
@jbacks considera anche di lavorare con osservazioni / previsioni su una scala trasformata come logaritmica. Una distorsione in termini di errore in una scala non trasformata potrebbe essere ridotta o rimossa in seguito alla trasformazione. Si noti che l'uso di errori percentuali, suggerito in un'altra risposta, equivale a esaminare le differenze tra previsioni e osservazioni trasformate nel registro. Dovrai giudicare se ciò sarebbe appropriato per questa situazione.
EdM

Sembra plausibile e ci proverò. Grazie ancora per la tua comprensione.
jbacks

1

Un confronto probabilistico dei modelli, ad esempio implicando una certa probabilità calcolata dal con alcuni dati (e derivato da questo test AIC o rapporto), ha poco senso.ϵ

Questo è perché

  1. Sai già per certo che il modello sarà sbagliato.
  2. I residui con cui si finisce non hanno alcuna relazione con la distribuzione ipotizzata di errori che si utilizza per verificare diverse ipotesi. (non hai un modello statistico / probabilistico)
  3. Il tuo obiettivo non è quello di testare un'ipotesi (scienza di base / pura), ma di caratterizzare le prestazioni di previsione di un modello semplificato (scienza applicata).

Molto spesso le persone descrivono i modelli in termini di percentuale di errore per le previsioni.

Esempi:

Fondamentalmente puoi cercare su Google qualsiasi modello che sia una semplificazione della realtà e troverai persone che descrivono la loro discrepanza con la realtà in termini di coefficienti di correlazione o percentuale di variazione.


Voglio verificare l'ipotesi che il "fenomeno A" coinvolto  x_3,i contribuisca in modo misurabile alla produzione di  y. Il modello  fincorpora il fenomeno A un po '  g e  hnon lo è, quindi se la mia ipotesi fosse vera, prevederei che il modello  ffunziona in modo significativamente migliore rispetto a uno  g o  h.

Per tale confronto si potrebbe considerare la prestazione misurata come un campione, un campione prelevato da una popolazione più ampia (ipotetica) di prestazioni.

Quindi desideri descrivere i parametri della distribuzione della popolazione degli errori  e confrontarli. Ciò che potresti considerare probabilistico. Ad esempio, potresti definirlo "l'errore medio del modello è  " . La tua ipotesi riguarda quei parametri che descrivono la distribuzione degli errori.ϵy±x

Tuttavia, questa vista è un po 'problematica, poiché spesso il "campione" che viene utilizzato per misurare le prestazioni, non è in realtà una selezione casuale (ad es. Sono misurazioni lungo un intervallo predeterminato o tra un insieme pratico di elementi selezionati). Quindi qualsiasi quantificazione dell'errore nella stima della peformance generale non dovrebbe essere basata su un modello per la selezione casuale (ad es. Usando la varianza nel campione per descrivere l'errore della stima). Quindi ha ancora poco senso usare un modello probabilistico per descrivere i confronti. Potrebbe essere sufficiente dichiarare solo dati descrittivi e fare una "stima" sulla generalizzazione basata su argomenti logici.


Questi esempi sono utili! Sono un po 'confuso dalla tua affermazione che il mio obiettivo non comporta un test di ipotesi. Mentre lo incornicia, voglio testare l'ipotesi che il "fenomeno A" che coinvolge x_3,icontribuisce in modo misurabile alla produzione di y. Il modello fincorpora il fenomeno A un po ' ge hnon lo è, quindi se la mia ipotesi fosse vera, prevederei che il modello ffunziona in modo significativamente migliore rispetto a uno go h.
jbacks

2
@jbacks per tale confronto si potrebbe considerare la prestazione misurata come un campione prelevato da una vasta popolazione di prestazioni. Quindi desideri descrivere i parametri della distribuzione della popolazione degli errori e confrontarli. Ciò che potresti considerare probabilistico. Ad esempio, potresti definirlo "l'errore medio del modello è ". La tua ipotesi riguarda questi parametri. ϵx±y
Sesto Empirico

Grazie per aver esteso quel commento con la tua modifica. Tra questa prospettiva e l'altra risposta, penso di avere una strada plausibile per il futuro. Molto apprezzato!
jbacks
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.