Negli ultimi anni, le reti neurali convoluzionali (CNN) sono diventate lo stato dell'arte per il riconoscimento degli oggetti nella visione artificiale. In genere, una CNN è composta da diversi livelli convoluzionali, seguiti da due livelli completamente collegati. Un'intuizione alla base di ciò è che i livelli convoluzionali apprendono una migliore rappresentazione dei dati di input e che i livelli completamente connessi imparano quindi a classificare questa rappresentazione in base a un insieme di etichette.
Tuttavia, prima che le CNN iniziassero a dominare, le Support Vector Machines (SVM) erano lo stato dell'arte. Quindi sembra ragionevole dire che un SVM è ancora un classificatore più forte di una rete neurale completamente connessa a due strati. Pertanto, mi chiedo perché le CNN all'avanguardia tendano a utilizzare gli strati completamente collegati per la classificazione piuttosto che un SVM? In questo modo, avresti il meglio di entrambi i mondi: una forte rappresentazione delle caratteristiche e un forte classificatore, piuttosto che una forte rappresentazione delle caratteristiche ma solo un debole classificatore ...
Qualche idea?