Nota che sto facendo tutto in R.
Il problema si presenta come segue:
Fondamentalmente, ho un elenco di curriculum (CV). Alcuni candidati avranno prima esperienza lavorativa e altri no. L'obiettivo qui è: sulla base del testo dei loro CV, voglio classificarli in diversi settori lavorativi. Sono particolare in quei casi, in cui i candidati non hanno alcuna esperienza / è uno studente, e voglio fare una previsione per classificare a quali settori professionali questo candidato apparterrà molto probabilmente dopo la laurea.
Domanda 1: Conosco algoritmi di apprendimento automatico. Tuttavia, non ho mai fatto la PNL prima. Mi sono imbattuto nell'allocazione del Dirichlet latente su Internet. Tuttavia, non sono sicuro che questo sia l'approccio migliore per affrontare il mio problema.
La mia idea originale: rendere questo un problema di apprendimento supervisionato . Supponiamo di avere già una grande quantità di dati etichettati, il che significa che abbiamo etichettato correttamente i settori di lavoro per un elenco di candidati. Formiamo il modello utilizzando algoritmi ML (cioè il vicino più vicino ...) e inseriamo quei dati senza etichetta , che sono candidati che non hanno esperienza di lavoro / sono studenti, e proviamo a prevedere a quale settore lavorativo apparterranno.
Domanda di aggiornamento 2: sarebbe una buona idea creare un file di testo estraendo tutto in un curriculum e stampando questi dati nel file di testo, in modo che ogni curriculum sia associato a un file di testo, che contiene stringhe non strutturate, e quindi noi applicare tecniche di estrazione del testo ai file di testo e rendere i dati strutturati o addirittura creare una matrice di frequenza dei termini utilizzati dai file di testo? Ad esempio, il file di testo potrebbe essere simile al seguente:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
Questo è ciò che intendevo per "non strutturato", ovvero comprimere tutto in una stringa a riga singola.
Questo approccio è sbagliato? Per favore, correggimi se pensi che il mio approccio sia sbagliato.
Domanda 3: La parte difficile è: come identificare ed estrarre le parole chiave ? Usando il tm
pacchetto in R? su quale algoritmo si tm
basa il pacchetto? Dovrei usare gli algoritmi NLP? Se sì, quali algoritmi dovrei guardare? Per favore, mi indichi anche alcune buone risorse da guardare.
Qualunque idea sarebbe apprezzata.