Che cos'è un modello "saturo"?

59

Cosa si intende quando diciamo di avere un modello saturo?

modeling regression

— Graham Cookson
fonte

36

Un modello saturo è quello in cui ci sono tanti parametri stimati quanti punti dati. Per definizione, ciò porterà a un adattamento perfetto, ma sarà di scarsa utilità statisticamente, poiché non sono disponibili dati per stimare la varianza.

Ad esempio, se si dispone di 6 punti dati e si adatta un polinomio del 5 ° ordine ai dati, si avrebbe un modello saturo (un parametro per ciascuna delle 5 potenze della variabile indipendente più uno per il termine costante).

— Giacomo
fonte

18

Ho visto esempi in cui un modello ha dieci punti dati e nove parametri. Nel sottolineare che il modello ha troppi parametri, mi è stato detto che R ^ 2 era 0.999, quindi il modello deve essere corretto!

— csgillespie,

4

Come si può leggere nel post di my e dave, i modelli saturi non conducono per definizione alla perfezione. ma se usi il polinominale n-1 come modello lo faranno. vedi l'articolo fondamentale di Sue Doe Nihm

— Henrik

24

Un modello saturo è un modello sovraparametrizzato al punto da sostanzialmente interpolare i dati. In alcune impostazioni, come la compressione e la ricostruzione delle immagini, questa non è necessariamente una cosa negativa, ma se stai cercando di costruire un modello predittivo è molto problematico.

In breve, i modelli saturi portano a predittori di varianza estremamente elevata che vengono spinti dal rumore più dei dati reali.

Come esperimento mentale, immagina di avere un modello saturo e c'è rumore nei dati, quindi immagina di adattare il modello alcune centinaia di volte, ogni volta con una diversa realizzazione del rumore, e quindi prevedere un nuovo punto. È probabile che tu ottenga risultati radicalmente diversi ogni volta, sia per la tua forma che per la tua previsione (e i modelli polinomiali sono particolarmente significativi in questo senso); in altre parole, la varianza tra adattamento e predittore è estremamente elevata.

Al contrario, un modello che non è saturo (se costruito in modo ragionevole) darà accoppiamenti più coerenti tra loro anche in presenza di rumori diversi, e anche la varianza del predittore sarà ridotta.

— Ricco
fonte

17

Un modello è saturo se e solo se ha tanti parametri quanti sono i punti dati (osservazioni). In altre parole, nei modelli non saturi i gradi di libertà sono maggiori di zero.

Ciò significa sostanzialmente che questo modello è inutile, perché non descrive i dati in modo più parsimonioso rispetto ai dati non elaborati (e la descrizione parsimoniosa dei dati è generalmente l'idea alla base dell'utilizzo di un modello). Inoltre, i modelli saturi possono (ma non necessariamente) fornire un adattamento perfetto (inutile) perché interpolano o ripetono i dati.

Prendi ad esempio la media come modello per alcuni dati. Se hai un solo punto dati (ad es. 5) usando la media (cioè 5; nota che la media è un modello saturo per un solo punto dati) non aiuta affatto. Tuttavia, se hai già due punti di dati (ad es. 5 e 7), usando la media (ad es. 6) come modello, otterrai una descrizione più parsimoniosa dei dati originali.

— Henrik
fonte

8

Questo punto sulla saturazione che non implica un adattamento perfetto è la parte più interessante di questo thread. Un esempio naturale di tale situazione sarebbe la regressione monotonica . Supponiamo, ad esempio, che tu sappia che i tuoi valori devono aumentare nel tempo e fai una regressione polinomiale, costringendo i polinomi ad aumentare. Considera i dati che presentano qualche errore, quindi a volte diminuiscono leggermente. Poi non importa come molti parametri si utilizza (anche quando è più rispetto al numero di valori di dati), non si sarà mai adattare questi dati perfettamente.

— whuber

17

Come tutti gli altri hanno detto prima, significa che hai quanti più parametri hai punti dati. Quindi, nessuna bontà dei test di adattamento. Ma ciò non significa che "per definizione", il modello possa adattarsi perfettamente a qualsiasi punto dati. Posso dirti per esperienza personale di lavorare con alcuni modelli saturi che non sono stati in grado di prevedere punti dati specifici. È abbastanza raro, ma possibile.

Un altro aspetto importante è che saturi non significa inutili. Ad esempio, nei modelli matematici della cognizione umana, i parametri del modello sono associati a specifici processi cognitivi che hanno un background teorico. Se un modello è saturo, puoi verificarne l'adeguatezza facendo esperimenti mirati con manipolazioni che dovrebbero influenzare solo parametri specifici. Se le previsioni teoriche corrispondono alle differenze osservate (o alla mancanza di) nelle stime dei parametri, allora si può dire che il modello è valido.

Un esempio: immagina ad esempio un modello che ha due serie di parametri, uno per l'elaborazione cognitiva e un altro per le risposte motorie. Immagina ora di avere un esperimento con due condizioni, una in cui la capacità dei partecipanti di rispondere è compromessa (possono usare solo una mano invece di due), e nell'altra condizione non vi è alcuna riduzione. Se il modello è valido, le differenze nelle stime dei parametri per entrambe le condizioni dovrebbero verificarsi solo per i parametri di risposta del motore.

Inoltre, tenere presente che anche se un modello non è saturo, potrebbe non essere identificabile, il che significa che diverse combinazioni di valori dei parametri producono lo stesso risultato, compromettendo qualsiasi adattamento del modello.

Se vuoi trovare maggiori informazioni su questi problemi in generale, potresti dare un'occhiata a questi documenti:

Bamber, D., e van Santen, JPH (1985). Quanti parametri può avere un modello ed essere ancora testabile? Journal of Mathematical Psychology, 29, 443-473.

Bamber, D. e van Santen, JPH (2000). Come valutare la testabilità e l'identificabilità di un modello. Journal of Mathematical Psychology, 44, 20-40.

Saluti

— Dave Kellen
fonte

3

È inoltre utile se è necessario calcolare AIC per un modello di quasi verosimiglianza. La stima della dispersione dovrebbe provenire dal modello saturo. Si dividerebbe il LL che si sta adattando per la dispersione stimata dal modello saturo nel calcolo AIC.

— Stephen Lien
fonte

2

Nel contesto di SEM (o analisi del percorso), un modello saturo o un modello appena identificato è un modello in cui il numero di parametri liberi è esattamente uguale al numero di varianze e covarianze uniche. Ad esempio il seguente modello è un modello saturo perché ci sono 3 * 4/2 punti dati (varianze e covarianze uniche) e anche 6 parametri liberi da stimare:

— Ehsan88
fonte