Ho questo progetto laterale in cui eseguo la scansione dei siti di notizie locali nel mio paese e voglio costruire un indice di criminalità e un indice di instabilità politica. Ho già coperto la parte relativa al recupero delle informazioni del progetto. Il mio piano è di fare:
- Estrazione di argomenti senza supervisione.
- Rilevamento di duplicati vicini.
- Classificazione supervisionata e livello dell'incidente (criminalità / politica - alta / media / bassa).
Userò Python e Sklearn e ho già studiato gli algoritmi che posso usare per quei compiti. Penso che 2. potrebbe darmi un fattore di pertinenza di una storia: più articoli di giornale pubblicano su una storia o un argomento, più è rilevante per quel giorno.
Il mio prossimo passo è quello di costruire l'indice mensile, settimanale e giornaliero (a livello nazionale e per città) basato sulle caratteristiche che ho, e mi sono un po 'perso qui perché la "sensibilità all'instabilità" potrebbe aumentare nel tempo. Voglio dire, l'indice del grave incidente di instabilità dell'ultimo anno potrebbe essere inferiore all'indice di quest'anno. Anche se usare la scala fissa 0-100 o no.
In seguito vorrei essere in grado di prevedere gli incidenti in base a questo, ad esempio se la successione di eventi nelle ultime settimane sta portando a un incidente rilevante. Ma per ora sarò felice di far funzionare la classificazione e costruire il modello di indice.
Gradirei qualsiasi puntatore a un documento, letture o pensieri pertinenti. Grazie.
PD: Mi dispiace se la domanda non appartiene qui.
AGGIORNAMENTO : Non ho ancora "fatto", ma recentemente è arrivata una notizia su un gruppo di scienziati che stanno lavorando in un sistema per predire gli eventi utilizzando gli archivi di notizie e pubblicato un documento pertinente Estrarre il Web per predire gli eventi futuri (PDF ).