Utilizzo di strumenti di elaborazione del testo / elaborazione del linguaggio naturale per l'econometria


9

Non sono sicuro che questa domanda sia completamente appropriata qui, in caso contrario, si prega di eliminare.

Sono uno studente laureato in economia. Per un progetto che indaga questioni relative alle assicurazioni sociali, ho accesso a un gran numero di casi amministrativi (> 200.000) che si occupano di valutazioni di ammissibilità. Questi rapporti possono eventualmente essere collegati a singole informazioni amministrative. Voglio estrarre informazioni da questi rapporti che possono essere utilizzate nell'analisi quantitativa e idealmente più di semplici ricerche di parole chiave / regex usando grep/ awkecc.

Quanto è utile l'elaborazione del linguaggio naturale per questo? Quali sono altri approcci utili per l'estrazione del testo? Da quello che ho capito, questo è un campo ampio, e molto probabilmente alcuni dei rapporti dovrebbero essere trasformati per essere usati come corpus. Vale la pena investire del tempo per conoscere la letteratura e i metodi? Può essere utile e qualcosa di simile è già stato fatto prima? Ne vale la pena in termini di ricompense, ovvero posso estrarre informazioni potenzialmente utili usando la PNL per uno studio empirico in economia?

Probabilmente ci sono finanziamenti per assumere qualcuno che legga e prepari alcuni dei rapporti. Questo è un progetto più ampio e c'è la possibilità di richiedere maggiori finanziamenti. Posso fornire maggiori dettagli sull'argomento se strettamente necessario. Una potenziale complicazione è che la lingua è il tedesco, non l'inglese.

Per quanto riguarda le qualifiche, sono principalmente addestrato in econometria e ho una certa conoscenza delle statistiche computazionali a livello di Hastie et al. libro. Conosco Python, R, Stata e probabilmente potrei familiarizzare rapidamente con Matlab. Date le librerie, suppongo che Python sia lo strumento preferito per questo. Nessuna formazione su metodi qualitativi se questo è rilevante, ma conosco alcune persone a cui potrei rivolgermi.

Sono lieto di qualsiasi input in merito, vale a dire se ciò è potenzialmente utile, in tal caso, da dove iniziare a leggere e su quali strumenti concentrarsi in particolare.


LASSO, regressione dell'angolo minimo e analisi logistica sono alcuni strumenti potenzialmente rilevanti. Potresti voler verificare come ho affrontato un problema simile per il mio dottorato di ricerca. tesi qui e il mio post sul blog sugli strumenti di PNL in economia qui . Se sei arrivato ovunque con questo, sarebbe bello sapere dei tuoi progressi o di eventuali sfide che potresti aver incontrato.
laurea magistrale

Risposte:


2

Penso che ti sarebbe utile definire quali informazioni desideri estrarre dai dati. Semplici ricerche di parole chiave / regex possono effettivamente essere molto utili per te. Lavoro nel settore assicurativo e usiamo questo tipo di text mining abbastanza frequentemente: è probabilmente ingenuo e decisamente imperfetto, ma è un inizio relativamente buono (o una approssimazione ravvicinata) di ciò a cui siamo generalmente interessati.

Ma al mio punto principale, al fine di capire se il metodo scelto è appropriato, consiglierei di definire esattamente cosa si desidera estrarre dai dati; questa è la parte più difficile, secondo me.

Potrebbe essere interessante trovare le parole uniche all'interno di tutte le stringhe e fare una frequenza delle prime 1000 parole circa. Questo può essere costoso dal punto di vista computazionale (a seconda della RAM / del processore) ma può essere interessante da vedere. Se esplorassi i dati senza molta conoscenza al riguardo, è qui che inizierei (altri potrebbero offrire viste diverse).

Spero che aiuti.


grazie, stavo sicuramente pensando di iniziare con qualcosa del genere. So che la mia domanda è vaga, ma sono più generalmente interessato a quale tipo di informazione sarei in grado di estrarre con altri metodi. Ammetto di non essere sicuro che sia possibile rispondere a questa domanda senza conoscere il contesto specifico.
ilprincipe,

1
Penso che sia sempre la sfida con qualsiasi lavoro / professione legata ai dati. Probabilmente consiglierei di guardare alcuni dei tuoi dati, se ci sono variabili con descrizioni dei dati o eventi assicurativi, leggi un paio di dozzine: fatti un'idea dei dati. Ricorda, tutto ciò che cerchiamo di fare è modellare il processo sottostante dei dati e per fare davvero un ottimo lavoro devi conoscere i dati.
Francisco Arceo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.