Modelli flessibili e non flessibili nell'apprendimento automatico

10

Mi sono imbattuto in una semplice domanda sul confronto tra modelli flessibili (ad esempio spline) e modelli non flessibili (ad esempio regressione lineare) in diversi scenari. La domanda è:

In generale, prevediamo che le prestazioni di un metodo di apprendimento statistico flessibile funzionino meglio o peggio di un metodo non flessibile quando:

Il numero di predittori è estremamente elevato e il numero di osservazioni è piccolo? $p$ $n$
La varianza dei termini di errore, ovvero $σ^2 = \text{Var}(e)$ , è estremamente elevata?

Penso per (1), quando $n$ è piccolo, i modelli non flessibili sono migliori (non sono sicuro). Per (2), non so quale modello sia (relativamente) migliore.

machine-learning model

— un ragazzino
fonte

L'errore di generalizzazione è tutt'altro che banale. Sfortunatamente le regole empiriche non aiutano molto in questo senso.

— Marc Claesen,

8

Sembra che questo sia di James, Witten, Hastie, Tibshirani, Introduzione all'apprendimento statistico

— Noel Evans,

1. Un metodo flessibile sarebbe troppo adatto al piccolo numero di osservazioni. 2. Un metodo flessibile si adatta al rumore nei termini di errore e aumenta la varianza.

— Zanark,

3

In queste 2 situazioni, il modello comparativo flessibile vs. inflessibile dipende anche da:

è vera relazione y = f (x) vicino a lineare o molto non lineare;
ottimizzi / restringi il grado di flessibilità del modello "flessibile" quando lo monti?

Se la relazione è vicina alla linearità e non si limita la flessibilità, il modello lineare dovrebbe fornire un migliore errore di test in entrambi i casi poiché il modello flessibile probabilmente si adatta in modo eccessivo in entrambi i casi.

Puoi vederlo come quello:

In entrambi i casi i dati non contengono abbastanza informazioni sulla relazione vera (nel primo caso la relazione è di dimensione elevata e non si dispone di dati sufficienti, nel secondo caso è danneggiata dal rumore) ma
- il modello lineare porta alcune informazioni preliminari esterne sulla relazione vera (vincola la classe delle relazioni adattate a quelle lineari) e
- che le informazioni precedenti risultano essere corrette (la relazione vera è vicina alla lineare).
Mentre il modello flessibile non contiene informazioni preliminari (può adattarsi a qualsiasi cosa), quindi si adatta al rumore.

Se comunque una relazione vera è molto non lineare, è difficile dire chi vincerà (entrambi perderanno :)).

Se ottimizzi / restringi il grado di flessibilità e lo fai nel modo giusto (diciamo per convalida incrociata), allora il modello flessibile dovrebbe vincere in tutti i casi.

— Kochede
fonte

4

Naturalmente dipende dai dati sottostanti che dovresti sempre esplorare per scoprire alcune delle sue caratteristiche prima di provare ad adattare un modello, ma quelli che ho imparato come regole generali sono:

Un modello flessibile consente di sfruttare appieno un campione di grandi dimensioni (n grande).
Sarà necessario un modello flessibile per trovare l'effetto non lineare.
Un modello flessibile consente di adattare troppo il rumore al problema (quando la varianza dei termini di errore è elevata).

— Paul PM
fonte

1

Bene, per la seconda parte, penso che un modello più flessibile cercherà di adattarsi al modello duro e che i dati di allenamento contengano un rumore elevato, quindi un modello flessibile cercherà anche di imparare quel rumore e provocherà più errori di prova. Conosco la fonte di questa domanda poiché sto anche leggendo lo stesso libro :)

— lovekesh
fonte

1

Per la prima parte, mi aspetto che il modello inflessibile avrebbe prestazioni migliori con un numero limitato di osservazioni. Quando n è molto piccolo, entrambi i modelli (che siano flessibili o non flessibili) non darebbero previsioni abbastanza buone. Tuttavia, il modello flessibile tende a sovrautilizzare i dati e ad avere prestazioni più scarse quando si tratta di un nuovo set di test.

Idealmente, collezionerei più osservazioni per migliorare l'adattamento, ma se non fosse così, allora userei il modello inflessibile, cercando di minimizzare un errore di test con un nuovo set di test.

— user40935
fonte

0

Per la seconda domanda credo che la risposta sia che entrambi funzioneranno allo stesso modo (supponendo che quegli errori siano irriducibili, cioè questo errore). Maggiori informazioni sono disponibili in Introduzione all'apprendimento statistico a pagina 18 (argomento: perché stimare ) in cui l'autore spiega il detto $f$

La precisione di come previsione per dipende da due quantità, che chiameremo errore riducibile e errore irriducibile . In generale, non sarà una stima perfetta per , e questa inesattezza introdurrà qualche errore. Questo errore è riducibile perché possiamo potenzialmente migliorare la precisione di utilizzando la tecnica di apprendimento statistico più appropriata per stimare . Tuttavia, anche se fosse possibile formare una stima perfetta per , in modo che la nostra risposta stimata abbia assunto la forma $Y$ $Y$ $\hat f$ $f$ $\hat f$ $\hat f$ $f$ $\hat Y = f(X)$ , la nostra previsione avrebbe ancora qualche errore! Questo perché è anche una funzione di , che, per definizione, non può essere previsto con . Pertanto, la variabilità associata a influisce anche sull'accuratezza delle nostre previsioni. Questo è noto come errore irriducibile , perché non importa quanto bene stimiamo , non possiamo ridurre l'errore introdotto da . $Y$ $\epsilon$ $X$ $\epsilon$ $f$ $\epsilon$

— ants.in.my.eyes
fonte

Non lo capisco

— Michael R. Chernick,

0

Per ciascuna delle parti da (a) a (d), indicare se i. o ii. è corretto e spiega la tua risposta. In generale, prevediamo che le prestazioni di un metodo di apprendimento statistico flessibile funzionino meglio o peggio di un metodo non flessibile quando:

La dimensione del campione n è estremamente grande e il numero di predittori p è piccolo?

Meglio. Un metodo flessibile si adatterà ai dati più vicini e con le grandi dimensioni del campione, avrebbe prestazioni migliori di un approccio non flessibile.

Il numero di predittori p è estremamente elevato e il numero di osservazioni n è piccolo?

Peggio. Un metodo flessibile sarebbe troppo adatto al piccolo numero di osservazioni.

La relazione tra predittori e risposta è altamente non lineare?

Meglio. Con più gradi di libertà, un metodo flessibile si adatterebbe meglio di uno inflessibile.

La varianza dei termini di errore, ovvero σ2 = Var (ε), è estremamente elevata?

Peggio. Un metodo flessibile si adatterebbe al rumore nei termini di errore e aumenterebbe la varianza.

Tratto da qui .

— Harvey
fonte