Il trucco del kernel viene utilizzato in diversi modelli di machine learning (ad es. SVM ). È stato introdotto per la prima volta nel documento "Fondamenti teorici del potenziale metodo di funzione nell'apprendimento del riconoscimento di schemi" nel 1964.
La definizione di Wikipedia dice che lo è
un metodo per utilizzare un algoritmo di classificazione lineare per risolvere un problema non lineare mappando le osservazioni non lineari originali in uno spazio di dimensioni superiori, dove successivamente viene utilizzato il classificatore lineare; ciò rende una classificazione lineare nel nuovo spazio equivalente alla classificazione non lineare nello spazio originale.
Un esempio di un modello lineare che è stato esteso a problemi non lineari è il kernel PCA . Il trucco del kernel può essere applicato a qualsiasi modello lineare o ha alcune restrizioni?