Quali strategie di intelligenza artificiale sono utili per la sintesi?

Se ho un paragrafo che voglio riassumere, ad esempio:

Ponzo e Fila andarono al centro commerciale durante il giorno. Camminarono a lungo, fermandosi nei negozi. Sono andati in molti negozi. All'inizio non hanno comprato nulla. Dopo essere andati in diversi negozi, alla fine hanno comprato una maglietta e un paio di pantaloni.

Riassumendo meglio come:

Hanno fatto acquisti al centro commerciale oggi e hanno comprato dei vestiti.

Qual è la migliore strategia di IA per automatizzare questo processo, se esiste? Se non lo è, è perché dipenderebbe innanzitutto dall'avere una risorsa di informazioni esterna che informerebbe qualsiasi algoritmo? O è perché il problema è intrinsecamente contestuale?

algorithm natural-language-processing pattern-recognition

— dynrepsys
fonte

Il seguente post ha un po 'di matematica, che spero aiuti a spiegare meglio il problema. Sfortunatamente, questo sito SE non supporta LaTex:

Il riassunto dei documenti è decisamente un problema aperto nella ricerca sull'IA. Un modo in cui questa attività è attualmente gestita è chiamato "riepilogo estrattivo". La strategia di base è la seguente: Dividi questo documento in frasi e presenteremo come riassunto un sottoinsieme di frasi che insieme coprono tutti i dettagli importanti nel post. Assegna frase $i$ , $1 \leq i \leq n$ , una variabile $z_i \in \{ 0, 1 \}$ , dove $z_i = 1$ indica che la frase è stata selezionata e $z_i = 0$ significa che la frase è stata lasciata fuori. Poi, $z_i z_j = 1$ se e solo se fossero state scelte entrambe le frasi. Definiremo anche l'importanza di ogni frase $w_i$ per la frase $i$ e termini di interazione $w_{i,j}$ tra le frasi $i$ e $j$ .

Permettere $x_i$ essere i vettori delle funzioni per la frase $i$ . $w_i = w(x_i)$ cattura quanto sia importante includere questa frase (o gli argomenti trattati da essa) mentre $w_{i,j} = w(x_i,x_j)$ indica la quantità di sovrapposizione tra le frasi nel nostro riepilogo. Alla fine mettiamo tutto questo in un problema di minimizzazione:

\begin{aligned} \underset{z_{io}}{aumentare al massimo} & \underset{io}{Σ} w_{io} z_{io} - w_{io, j} z_{io} z_{j} \\ st & z_{io} = 0 o 1 \end{aligned}

$\begin{aligned} \underset{z_i}{\text{maximize }} & \sum_{i} w_i z_i - w_{i,j} z_i z_j \\ \text{s.t. } & z_i = 0 \text{ or } 1 \end{aligned}$

Questo cerca di massimizzare il peso totale delle frasi coperte e cerca di minimizzare la quantità di sovrapposizione. Questo è un problema di programmazione di numeri interi simile a quello di trovare il set indipendente di peso più basso in un grafico e esistono molte tecniche per risolvere tali problemi.

Questo disegno, secondo me, coglie i problemi fondamentali nella sintesi del testo e può essere esteso in molti modi. Ne discuteremo tra poco, ma prima dobbiamo specificare completamente le funzionalità $w$ . $w_i = w(x_i)$ potrebbe essere solo una funzione della frase $i$ , ma potrebbe anche dipendere dalla posizione della frase nel documento o dal suo contesto (la frase è all'inizio di un paragrafo? Condivide parole comuni con il titolo? Qual è la sua lunghezza? Cita qualche nome proprio? eccetera)

$w_{i,j} = w(x_i,x_j)$ è una misura di somiglianza. Misura quante ripetizioni ci saranno se includiamo entrambe le parole nella frase. Può essere definito guardando le parole comuni tra le frasi. Possiamo anche estrarre argomenti o concetti da ogni frase e vedere quanti sono comuni tra loro, e usare funzionalità linguistiche come pronomi per vedere se una frase si espande su un'altra.

Per migliorare il design, in primo luogo, potremmo eseguire l'estrazione della frase chiave, cioè identificare le frasi chiave nel testo e scegliere di definire il problema sopra riportato in termini di quelli anziché cercare di scegliere le frasi. Questo è un problema simile a quello che fa Google per sintetizzare gli articoli di notizie nei loro risultati di ricerca, ma non sono a conoscenza dei dettagli del loro approccio. Potremmo anche suddividere ulteriormente le frasi in concetti e provare a stabilire il significato semantico delle frasi (Ponzo e Fila sono persone P1 e P2, un centro commerciale è un posto P, P1 e P2 sono andati al posto P al momento T (giorno Modalità di trasporto a piedi .... e così via). Per fare ciò, avremmo bisogno di usare un'ontologia semantica o altri database di conoscenza di buon senso. Tuttavia, tutte le parti di quest'ultimo problema di classificazione semantica sono aperte e non ho ancora visto nessuno fare progressi soddisfacenti su di esso.

Potremmo anche modificare la funzione di perdita sopra in modo che invece di impostare il compromesso tra l'importanza della frase $w_i$ e il punteggio di diversità $w_{i,j}$ a mano, potremmo impararlo dai dati. Un modo per farlo è utilizzare i campi casuali condizionali per modellare i dati, ma sicuramente ne esistono molti altri.

Spero che questa risposta abbia spiegato i problemi di base che devono essere risolti per fare progressi verso buoni sistemi di sintesi. Questo è un campo di ricerca attivo e troverai gli articoli più recenti tramite Google Scholar, ma prima leggi la pagina di Wikipedia per conoscere i termini pertinenti

— duro
fonte