Системы автоматической генерации текста: методы работы и сферы использования | Знания, мысли, новости — radnews.ru


Системы автоматической генерации текста: методы работы и сферы использования

В отечественной лингвистике последних автоматическая генерация на естественном языке (ГЕЯ) представлена недостаточным количеством работ, поэтому работа будет в основном опираться на труды зарубежных ученых-лингвистов и программистов, работающих в этой области. В настоящее время человеку очень часто приходится работать с вычислительными системами, и поэтому всегда возникает проблема понимания компьютера человеком. Так как человек не может быстро и адекватно воспринимать машинный код, то возникает потребность «обучения» компьютерной системы естественному языку (ЕЯ), который будет понятен пользователю.

Существуют различные системы ГЕЯ, например, для одних текст на ЕЯ является не более чем строкой символов. Такие системы работают с уже готовыми предложениями и словосочетаниями как строительными блоками будущего текста. Это, так называемые, шаблонные технологии. Они очень просты, поэтому и относительно надежны, что позволило им стать применимыми очень широко. Другие системы ГЕЯ работают с содержанием будущего текста, представленном в виде данных неязыковой природы (Баз Данных (БД), Баз Знаний (БЗ), семантических и формальных языков). Такие системы должны обладать знаниями о структуре содержания и устройстве генерируемого текста, а также сложными лингвистическими знаниями, используемыми для выражения содержания на ЕЯ. Такой вид систем называется Лингвистически Мотивированными (ЛМ). Этот вид технологий сегодня находится на стадии исследования. Хотя ЛМ технологии призваны быть достаточно развитыми и сложными, они все равно активно используют шаблонные технологии для решения конкретных проблем.

Сегодня системы автоматической генерации естественного языка (ГЕЯ) находятся на начальном этапе развития, и учёныелингвисты со всего мира сейчас активно работают над их разработкой. Системы ГЕЯ имеют большой потенциал: от предоставления сводок погоды, до написания целых статей на новостных сайтах или в печатных издания. Но самое удивительное в этом то, что каждый из нас может в любой момент присоединиться к разработке, и у нас, как у лингвистов, даже будет преимущество в знании теории языка. Давайте рассмотрим, с чего же началась ГЕЯ. Ещё в 16-м веке, некий книгопечатник, чьё имя неизвестно, перемешал пластинки печатного пресса и создал самый первый в истории «рыбный» текст, который носит название Lorem Ipsum. Этот текст составлен на латинском языке, и в то время широко использовался в книгах-шаблонах. Lorem Ipsum называется «рыбным» текстом, так как он не несёт в себе ровным счётом никакой семантической информации, а представляет собой лишь набор слов, которые выглядят как текст. После этого ГЕЯ была отодвинута на задний план за неимением необходимых технологий.

Но сейчас, в информационную эру, когда у каждого человека есть доступ к вычислительной технике, ГЕЯ несомненно вышла на новый уровень. Далее мы рассмотрим три основных метода, на которых строится большинство современных систем ГЕЯ. 1. Цепи Маркова Суть данного метода заключается в том, что система обрабатывает уже готовый, написанный человеком текст, разбивая его на биграммы. Биграммы – это пары слов, одно из которых является «ключом», а другое – «ветвью». Это слова в оригинальном тексте идут друг за другом. Например, если «ключом» является слово «я», то его «ветви» могут быть «буду, был, иду, вижу, думаю, пишу, здоров, большой» и т.д. Для каждой «ветви» просчитывается коэффициент появления в тексте, на основе которого и выбирается какая конкретно «ветвь» будет помещена после «ключа». После того, как система сделала свой выбор, «ветвь» становится новым «ключом». Допустим, если наша система выбрала слово «вижу», то его «ветвями» могут быть «парня, девушку, книгу, машину» и т.д. Так продолжается до тех пор, пока не будет построено предложение, размеры которого заранее заданы в программе. Собственно таким методом и получается «рыбный» текст, о котором было сказано выше. 2. SIMP-таблицы Метод SIMP-таблиц (Simplified Integrated Modular Prose) очень прост в реализации, соответственно он является наиболее надёжным. Данный способ ГЕЯ имеет в основе свой заранее за

готовленные части предложений, помещённых в разные таблицы. Далее из них случайным образом выбираются части, которые в итоге и образуют сгенерированный текст. Данный метод является оптимальным для составления псевдонаучных текстов и различного рода инструкций. 3. Генерация на основе баз данных Без преувеличения можно сказать, что данный метод является сегодня наиболее востребованным и активно развивающимся. В современном мире бесконечное количество информации представлено в неязыковом виде, таком как, цифры, графики, коды и т.п. И всё больше возрастает спрос на потребление этой самой информации. Далее мы рассмотрим несколько успешных систем ГЕЯ, основанных на данном методе. А) UK Met Office’s text-enhanced forecast Это система, разработанная для Великобритании, которая составляет письменные отчеты о погоде в всей стране. Только представьте себе, сколько работников нужно привлечь и человеко-часов необходимо затратить, чтобы обновлять прогноз погоды в каждом городе каждые 15 минут.

Данная система делает это с не меньшим талантом, что и человек, но скорость её работы во много раз превосходит его. Б) Automated Insights Превращает различного рода таблицы и части неформатированных данных в связный отчёт, понятных любому пользователю. Данные отчёты можно размещать на различных новостных сайтах, чтобы постоянно пополнять их контентом. Сферы применения систем ГЕЯ очень обширны, как можно заметить из всего вышесказанного. Также их преимущество заключается в том, что их можно настроить как для глобального, так и для личного пользования. Например, школьный учитель физики может написать для себя систему ГЕЯ, которая будет из входных данных составлять тесты задач для самостоятельных и контрольных работ, что сэкономит ему очень много времени. Находите новые области применения и присоединяйтесь к разработке систем ГЕЯ, ведь именно сейчас у нас есть возможность вести свой весомый вклад в данную область!

Милинцевич К.Н.


Комментировать


пять − 1 =

Яндекс.Метрика