La regressione e l'apprendimento automatico sono utilizzati nelle scienze naturali per testare ipotesi, stimare parametri e fare previsioni adattando i modelli ai dati. Tuttavia, quando ho un modello a priori , non voglio fare alcun adattamento --- per esempio, un modello di un sistema fisico deterministico calcolato dai primi principi. Voglio semplicemente sapere quanto il mio modello corrisponde ai dati e quindi capire quali parti del modello contribuiscono in modo significativo alla corrispondenza. Qualcuno potrebbe indicarmi un modo statisticamente rigoroso di farlo?
In termini più specifici, supponiamo di avere un sistema fisico per il quale ho misurato una variabile dipendente ( varia da 1 a , la dimensione del campione) in condizioni variabili descritte da tre variabili indipendenti , e . Sebbene il sistema reale che ha generato i dati sia complicato, ho fatto alcune ipotesi semplificative per derivare un modello teorico per il sistema, in modo tale che
,
dove è una funzione non lineare (e non linearizzabile) delle variabili indipendenti e è la differenza tra i valori previsti dal modello e quelli misurati. è completamente pre-specificato; non viene eseguito alcun adattamento e non vengono stimati parametri. Il mio primo obiettivo è determinare se è un modello ragionevole per il processo che ha prodotto i valori misurati .
Ho anche sviluppato modelli semplificati e , che sono nidificati in (se questo è importante in questo caso). Il mio secondo obiettivo è quello di determinare se corrisponde ai dati significativamente migliori rispetto o , il che suggerisce che le caratteristiche che differenziano il modello dai modelli ed giocano un ruolo importante nel processo che genera .
Idee finora
Forse se ci fosse un modo per determinare il numero di parametri o il numero di gradi di libertà per il mio modello matematico, sarebbe possibile usare le procedure esistenti come un test del rapporto di verosimiglianza o un confronto AIC. Tuttavia, data la forma non lineare di e l'assenza di parametri evidenti, non sono sicuro se sia ragionevole assegnare parametri o assumere ciò che costituisce un grado di libertà.
Ho letto che le misure di bontà di adattamento, come il coefficiente di determinazione ( ), possono essere utilizzate per confrontare le prestazioni del modello. Tuttavia, non mi è chiaro quale potrebbe essere la soglia per una differenza significativa tra i valori di . Inoltre, poiché non adatta il modello ai dati, la media dei residui non è zero e potrebbe essere diversa per ciascun modello. Pertanto, un modello ben adattato che tende a sottostimare i dati potrebbe produrre un valore di come modello imparziale ma scarsamente abbinato ai dati.
Ho anche letto un po 'di test sulla bontà di adattamento (ad es. Anderson-Darling), ma poiché le statistiche non sono il mio campo, non sono sicuro di quanto bene questo tipo di test si adatti al mio scopo. Qualsiasi consiglio sarebbe apprezzato.
f
è completamente pre-specificato. È come una scatola nera che produce la risposta y
dalle variabili di input e voglio sapere quanto sta andando bene rispetto alle scatole nere concorrenti. Una situazione analoga potrebbe tentare di valutare la corrispondenza tra l'output di una simulazione numerica e le misurazioni effettuate nel sistema fisico reale.
f()
che devono essere determinati dall'adattamento ai dati o la funzione èf()
completamente pre-specificata?