Che cos'è la fusione di dati?


15

Questo termine appare frequentemente nei thread relativi al metodo .

La fusione è un metodo specifico nel data mining e nell'apprendimento statistico? Non riesco a ottenere un risultato pertinente da Google.

Sembra che la fusione stia mescolando i risultati di molti modelli e producendo un risultato migliore. C'è qualche risorsa che mi aiuta a saperne di più?

Risposte:


10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Alcuni documenti per aiutarti a capire meglio cos'è la fusione. Penso che tu possa anche google per la selezione / apprendimento dell'ensemble e anche per lo stacking.

Tuttavia, la tua comprensione generale di "confondere i risultati di molti modelli e ottenere un risultato migliore" è corretta.


Quel link è stato preso anche da qualche parte nel forum di Kaggle. Ho salvato solo il link del pdf ma non la discussione però ...
Re

12

Il potenziamento (come menzionato nella discussione collegata) è un metodo che combina una serie di algoritmi per ottenere un risultato migliore di quello che si può ottenere da un singolo algoritmo. Ad esempio, le foreste casuali sono un metodo per combinare vari alberi di classificazione per un algoritmo di classificazione. Questo approccio è formalmente chiamato media d'insieme (sebbene l'algoitmo di solito applichi la regola della maggioranza). Miscelare sembra essere una parola che alcune persone usano per descrivere un approccio alla classificazione di potenziamento.


Quindi questo può essere chiamato fusione, se sostituisco gli alberi di classificazione in un normale modello adaboost con altri set di algoritmi?
TomHall,

Ciao Michael, la tua risposta è davvero utile ma, peccato per me, sono nuovo nelle statistiche e non ho abbastanza reputazione per votare ancora la tua risposta.
TomHall,

1
Bene, ricordati di farlo dopo aver ottenuto alcuni punti rep.
Michael R. Chernick,

0

Nel settore la miscelazione dei dati non riguarda i modelli ma la preelaborazione : è il momento in cui i dati vengono uniti che provengono da origini diverse, come uno da un database e altri dati da file CSV.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.