La foresta casuale e il potenziamento sono parametrici o non parametrici?

13

Leggendo l'eccellente modellistica statistica: le due culture (Breiman 2001) , possiamo cogliere tutta la differenza tra modelli statistici tradizionali (ad es. Regressione lineare) e algoritmi di apprendimento automatico (ad es. Insaccamento, foresta casuale, alberi potenziati ...).

Breiman critica i modelli di dati (parametrici) perché si basano sul presupposto che le osservazioni siano generate da un modello formale noto prescritto dallo statistico, che potrebbe emulare male la natura. D'altra parte, gli algoritmi ML non assumono alcun modello formale e apprendono direttamente le associazioni tra le variabili di input e output dai dati.

Mi sono reso conto che Bagging / RF e Boosting sono anche una sorta di parametro: ad esempio, ntree , mtry in RF, frequenza di apprendimento , frazione di borsa , complessità degli alberi negli alberi potenziati con gradiente stocastico sono tutti parametri di regolazione . Stiamo anche valutando questi parametri dai dati poiché li stiamo usando per trovare valori ottimali di questi parametri.

Quindi qual è la differenza? I modelli parametrici RF e Boosted Trees?

— Antoine
fonte

12

I modelli parametrici hanno parametri (deducendoli) o ipotesi riguardanti la distribuzione dei dati, mentre RF, reti neurali o alberi di potenziamento hanno parametri correlati con l'algoritmo stesso, ma non hanno bisogno di ipotesi sulla distribuzione dei dati o classificano i dati in una distribuzione teorica . In effetti quasi tutti gli algoritmi hanno parametri come iterazioni o valori di margine relativi all'ottimizzazione.

— D.Castro
fonte

5

Quindi, per riassumere: 1) entrambi i parametri dei modelli ML e parametrici sono sintonizzati / stimati in base ai dati, MA 2) in ML, i parametri controllano il modo in cui gli algoritmi apprendono dai dati (senza fare ipotesi sui dati e a valle di la generazione dei dati), mentre i parametri dei modelli parametrici (modelli che vengono assunti a priori) controllano il meccanismo che si presume abbia prodotto i dati (con molte ipotesi non realistiche che raramente valgono nella pratica). Pensi che questo sia un riassunto adeguato? Vuoi aggiungere / modificare qualcosa?

— Antoine,

4

Penso che una frase del documento di Breiman che sintetizzi tutto sia "la modellazione algoritmica sposta l'attenzione dai modelli di dati alle proprietà degli algoritmi".

— Antoine,

1

Puoi riassumerlo in questo modo ma ... non sottovalutare i modelli parametrici. Ci sono situazioni in cui sono necessari e ottimali per risolvere molti problemi. Anche i loro presupposti non sono così irrealistici. Molte distribuzioni teoriche sono valide per spiegare molte cose, dal normale al binomiale al lognormale, geometrico, ecc. Non si tratta dell'uno o dell'altro, si tratta di scegliere il modo giusto per risolvere un problema.

— D.Castro

4

Sono d'accordo. Quando il processo fisico sottostante è ben noto, i modelli parametrici sono appropriati. Breiman sta criticando l'uso di modelli parametrici per la scoperta e la previsione della conoscenza quando i processi sottostanti sono sconosciuti

— Antoine,

1

Penso che il criterio per parametrico e non parametrico sia questo: se il numero di parametri aumenta con il numero di campioni di addestramento. Per la regressione logistica e svm, quando si selezionano le funzionalità, non si otterranno più parametri aggiungendo più dati di allenamento. Ma per RF e così via, i dettagli del modello cambieranno (come la profondità dell'albero) anche se il numero di alberi non cambia.

— Yu Zhang
fonte

ma in RF o Boosting, aumentare la profondità dell'albero non aggiunge parametri. Hai ancora il tuo tree.complexityparametro, basta cambiarne il valore. Inoltre, in RF e il potenziamento del numero di alberi nella foresta / sequenza cambia a seconda delle dimensioni del campione

— Antoine

nelle mie opzioni, quando la profondità dell'albero cambia, ci sono alcune più divisioni nell'albero, quindi hai più parametri. Quando il numero di alberi cambia in RF e Boosting quando i dati cambiano, ma ciò non accadrà quando il modello è lineare.

— Yu Zhang,

1

In senso statistico, il modello è parametrico, se i parametri vengono appresi o dedotti in base ai dati. Un albero in questo senso non è parametrico. Naturalmente la profondità dell'albero è un parametro dell'algoritmo, ma non è intrinsecamente derivato dai dati, ma piuttosto un parametro di input che deve essere fornito dall'utente.

— PeterPancake
fonte

Quindi, supponi di dover presentare modelli OLS e basati su alberi a un pubblico non tecnico, potresti dire che i primi sono parametrici mentre i secondi non sono parametrici?

— Tanguy,