Come determinare la complessità di una frase inglese?


10

Sto lavorando a un'app per aiutare le persone a imparare l'inglese come seconda lingua. Ho confermato che le frasi aiutano nell'apprendimento di una lingua fornendo un contesto aggiuntivo. L'ho fatto conducendo una piccola ricerca in un'aula di 60 studenti.

Ho estratto più di centomila frasi da Wikipedia per varie parole inglesi (tra cui 800 parole di Barron e 1000 parole inglesi più comuni)

I dati completi sono disponibili su https://buildmyvocab.in

Al fine di mantenere la qualità dei contenuti, ho filtrato le frasi che erano più lunghe di 160 caratteri poiché potrebbero essere difficili da capire.

Come prossimo passo, voglio essere in grado di automatizzare il processo di ordinamento di questi contenuti in ordine di facilità di comprensione. Io stesso sono un madrelingua inglese. Voglio sapere quali funzioni posso usare per separare frasi facili da frasi difficili.

Inoltre, pensi che sia possibile?

Risposte:


8

Sì. Esistono varie metriche, come l'indice fogg. Textacy in Python ha una bella lista e implementazioni.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}

Puoi anche esaminare l'entropia o la percentuale di parole uniche, ma le metriche sopra riportate sono più pertinenti.
GrimSqueaker,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.