Non sono sicuro che questa domanda sia completamente appropriata qui, in caso contrario, si prega di eliminare.
Sono uno studente laureato in economia. Per un progetto che indaga questioni relative alle assicurazioni sociali, ho accesso a un gran numero di casi amministrativi (> 200.000) che si occupano di valutazioni di ammissibilità. Questi rapporti possono eventualmente essere collegati a singole informazioni amministrative. Voglio estrarre informazioni da questi rapporti che possono essere utilizzate nell'analisi quantitativa e idealmente più di semplici ricerche di parole chiave / regex usando grep
/ awk
ecc.
Quanto è utile l'elaborazione del linguaggio naturale per questo? Quali sono altri approcci utili per l'estrazione del testo? Da quello che ho capito, questo è un campo ampio, e molto probabilmente alcuni dei rapporti dovrebbero essere trasformati per essere usati come corpus. Vale la pena investire del tempo per conoscere la letteratura e i metodi? Può essere utile e qualcosa di simile è già stato fatto prima? Ne vale la pena in termini di ricompense, ovvero posso estrarre informazioni potenzialmente utili usando la PNL per uno studio empirico in economia?
Probabilmente ci sono finanziamenti per assumere qualcuno che legga e prepari alcuni dei rapporti. Questo è un progetto più ampio e c'è la possibilità di richiedere maggiori finanziamenti. Posso fornire maggiori dettagli sull'argomento se strettamente necessario. Una potenziale complicazione è che la lingua è il tedesco, non l'inglese.
Per quanto riguarda le qualifiche, sono principalmente addestrato in econometria e ho una certa conoscenza delle statistiche computazionali a livello di Hastie et al. libro. Conosco Python, R, Stata e probabilmente potrei familiarizzare rapidamente con Matlab. Date le librerie, suppongo che Python sia lo strumento preferito per questo. Nessuna formazione su metodi qualitativi se questo è rilevante, ma conosco alcune persone a cui potrei rivolgermi.
Sono lieto di qualsiasi input in merito, vale a dire se ciò è potenzialmente utile, in tal caso, da dove iniziare a leggere e su quali strumenti concentrarsi in particolare.