PCA è in realtà solo una rotazione. Seriamente, tutto qui: è un modo intelligente per far girare i dati su una nuova base. Questa base ha proprietà che lo rendono utile come fase di pre-elaborazione per diverse procedure.
La base è ortonormale . Questo è incredibilmente utile se le tue caratteristiche mostrano una multicolinearità (due o più funzioni sono linearmente dipendenti): l'applicazione di PCA è garantita per darti una base in cui questo non è più un problema. Questa procedura è nota come regressione del componente principale
I vettori di base sono significativi rispetto alla diffusione dei dati: sono gli autovettori della matrice di covarianza . Questa seconda proprietà dà origine alla famosa utilità di PCA come tecnica di riduzione della dimensionalità: dopo aver ruotato i dati, proiettando i dati su un sottoinsieme dei vettori di base associati a una porzione significativa della varianza totale si ottiene una rappresentazione dimensionale inferiore che (spesso) mantiene ( la maggior parte delle proprietà strutturali (interessanti) dei dati.
Quindi: è un algoritmo di apprendimento? Questa è una specie di domanda filosofica. Cosa rende qualcosa un algoritmo di apprendimento? Certamente la PCA non è un algoritmo di apprendimento "supervisionato" poiché possiamo farlo con o senza una variabile target e generalmente associamo tecniche "non supervisionate" al clustering.
Sì, PCA è una procedura di preelaborazione. Ma prima di scriverlo completamente come non "apprendere" qualcosa, mi piacerebbe che tu considerassi quanto segue: il PCA può essere calcolato prendendo letteralmente gli autovettori della matrice di covarianza, ma non è così che generalmente viene fatto nella pratica. Una procedura numericamente equivalente e più efficiente dal punto di vista computazionale è semplicemente prendere il file SVD dei dati. Pertanto, PCA è solo un'applicazione specifica di SVD, quindi chiedere se PCA è un algoritmo di apprendimento è davvero chiedere se SVD è un algoritmo di apprendimento.
Ora, anche se potresti sentirti a tuo agio a scrivere PCA come non un algoritmo di apprendimento, ecco perché dovresti essere meno a tuo agio nel fare lo stesso con SVD: è un metodo sorprendentemente potente per la modellazione degli argomenti e il filtro collaborativo . Le proprietà di SVD che lo rendono utile per queste applicazioni sono esattamente le stesse proprietà che lo rendono utile per la riduzione della dimensionalità (cioè PCA).
SVD è una generalizzazione della composizione elettronica, e anche questo è estremamente potente anche come versione vincolata di SVD. È possibile eseguire il rilevamento della comunità su un grafico osservando gli autovettori della matrice di adiacenza o determinare le probabilità di stato stazionario di un modello markov osservando gli autovettori della matrice di transizione, che per coincidenza è anche essenzialmente il modo in cui viene calcolato PageRank .
Sotto il cofano, PCA sta eseguendo una semplice operazione di algebra lineare. Ma questa è esattamente la stessa operazione che sta alla base di molte applicazioni a cui la maggior parte delle persone non metterebbe in dubbio l'applicazione dell'etichetta "machine learning". Questa classe di algoritmi si chiama Matrix Factorization e si estende anche a tecniche sofisticate come word2vec : in effetti, puoi effettivamente ottenere risultati simili a word2vec applicando letteralmente PCA a una matrice di co-occrenza di parole . Generalizzando ancora una volta, un'altra parola per i risultati di PCA è un incorporamento . Word2vec è probabilmente l'esempio più famoso di incorporamento, ma la costruzione di incorporamenti (come intermediari) è anche un componente importante dell'architettura encoder-decoder utilizzata nelle RNNe GAN , che in questo momento rappresentano il limite della ricerca ML.
Quindi torniamo alla tua domanda: PCA è un "algoritmo di apprendimento automatico?" Bene, in caso contrario, dovresti essere pronto a dire lo stesso di filtro collaborativo, modellazione di argomenti, rilevamento della comunità, centralità della rete e modelli di incorporamento.
Solo perché è semplice algebra lineare non significa che non sia anche magia.