Voglio costruire un indice di criminalità e un indice di instabilità politica basato su notizie

Ho questo progetto laterale in cui eseguo la scansione dei siti di notizie locali nel mio paese e voglio costruire un indice di criminalità e un indice di instabilità politica. Ho già coperto la parte relativa al recupero delle informazioni del progetto. Il mio piano è di fare:

Estrazione di argomenti senza supervisione.
Rilevamento di duplicati vicini.
Classificazione supervisionata e livello dell'incidente (criminalità / politica - alta / media / bassa).

Userò Python e Sklearn e ho già studiato gli algoritmi che posso usare per quei compiti. Penso che 2. potrebbe darmi un fattore di pertinenza di una storia: più articoli di giornale pubblicano su una storia o un argomento, più è rilevante per quel giorno.

Il mio prossimo passo è quello di costruire l'indice mensile, settimanale e giornaliero (a livello nazionale e per città) basato sulle caratteristiche che ho, e mi sono un po 'perso qui perché la "sensibilità all'instabilità" potrebbe aumentare nel tempo. Voglio dire, l'indice del grave incidente di instabilità dell'ultimo anno potrebbe essere inferiore all'indice di quest'anno. Anche se usare la scala fissa 0-100 o no.

In seguito vorrei essere in grado di prevedere gli incidenti in base a questo, ad esempio se la successione di eventi nelle ultime settimane sta portando a un incidente rilevante. Ma per ora sarò felice di far funzionare la classificazione e costruire il modello di indice.

Gradirei qualsiasi puntatore a un documento, letture o pensieri pertinenti. Grazie.

PD: Mi dispiace se la domanda non appartiene qui.

AGGIORNAMENTO : Non ho ancora "fatto", ma recentemente è arrivata una notizia su un gruppo di scienziati che stanno lavorando in un sistema per predire gli eventi utilizzando gli archivi di notizie e pubblicato un documento pertinente Estrarre il Web per predire gli eventi futuri (PDF ).

machine-learning classification text-mining

— Rolando Max
fonte

Per la parte tecnica (gli strumenti) consiglierei due libri come punto di partenza sia per O'Reiley: Collective Intelligence (con codice Python), Machine Learning (con codice R) ... per catturare argomenti relativi ai tuoi. Il prossimo passo potrebbe essere il sito Web Manning ... Per la parte metodologica raccomanderei il gruppo Semantic Web su LinkedIn.

— Radu Marius Florin,

Super molto simile a questa domanda. Tienici aggiornati!!

— entropia

Considera le variazioni del punteggio GINI.

È normalizzato e la sua uscita varia da 0 a 1.

MODIFICARE:

Perché GINI è "cool" o almeno potenzialmente appropriato:

È una misura della disuguaglianza o della disuguaglianza. Viene utilizzato come misura senza scale per caratterizzare l'eterogeneità delle reti senza scale, comprese le reti infinite e casuali. È utile nella costruzione di alberi CART perché è la misura della potenza di divisione di una particolare suddivisione dei dati.

Per la sua gamma:

ci sono meno errori di arrotondamento. Gli intervalli molto lontani dall'1,0 tendono a soffrire di problemi numerici.
è leggibile dall'uomo e più accessibile all'uomo. Gli umani hanno una comprensione più concreta di oggetti rispetto a miliardi.

Perché è normalizzato:

i confronti dei punteggi sono significativi, uno 0,9 in un paese significa lo stesso livello di non uniformità relativa di uno 0,9 in qualsiasi altro paese.
È normalizzato rispetto alla curva di Lorenz per una perfetta uniformità, pertanto i valori sono indicatori rilevanti della relazione della distribuzione dei valori di interesse con la curva di Lorenz.

Riferimenti:

— EngrStudent - Ripristina Monica
fonte

Benvenuto nel sito, @EngrStudent. Ti dispiacerebbe dire qualcosa in più sul coefficiente GINI, e perché è la risposta giusta qui? Dato che sei nuovo qui e stai iniziando a contribuire, potresti voler leggere le nostre FAQ , che contengono molte informazioni sul sito.

— gung - Ripristina Monica