Причины снижения качества автоматического распознавания речи

В настоящее время активно ведутся разработки в области распознавания речи. Системы и программы работают на высоком, качественном уровне, но достигнутые результаты не позволяют говорить о том, что машина может распознавать речь так же, как человек. Существует ряд причин, снижающих качество распознавания. В данной исследовательской работе рассмотрены такие причины, как физические (неречевые) помехи, речевые сбои и акцентная речь (речевые помехи). Одной из целей современных разработчиков систем распознавания речи является создание программы, которая бы давала высокие показатели в условиях физических помех, а также при распознавании акцентной речи и спонтанной речи с речевыми сбоями. В процессе проведения исследования было выдвинуто следующее предположение: если современные технологии не имеют трудностей с распознаванием отдельных команд и даже слитных заранее подготовленных текстов, а физические помехи при этомустраняются с помощью технологий шумоочистки, то присутствие в записи речевых сбоев (оговорок, хезитаций, самокоррекций), свойственных спонтанной речи, или акцентной речи,может являться причиной большого количества сбоев. Анализ теоретического материала в сочетании с собственными наблюдениями позволили сформулировать задачи практического исследования в данной работе. Для выработки рекомендаций по совершенствованию программ распознавания речи был проведён анализ работы приложений S Voice от компании Samsung и DragonDictation от компании Nuance. Новизна исследования состоит в использовании акцентной (не эталонной) речи для тестирования указанных речевых систем, при этом некоторые записи содержат также признаки речевых сбоев и фи зические помехи.

Источником материала для проведения эксперимента послужил интернет-архив TheSpeechAccentArchive, в котором представлены образцы акцентной английской речи. Была произведена выборка образцов чтения текста на английском языке носителями китайского языка. В группе информантов присутствуют представители женского и мужского полов, разных возрастных категорий. Для проведения данного исследования были отобраны образцы речи 8-ми представителей Китая обоих полов и разных возрастных категорий: 2 девушки и 2 парней в возрасте 22-25 лет; 2 женщины и 2 мужчин в возрасте 42-49.Информанты подобраны с учетом диалектной вариативности в китайском языке: 1 группа (молодые информанты) – носители кантонского диалекта, 2 группа (взрослые информанты) –носители мандаринского диалекта. Оба приложения по распознаванию речи тестировались с использованием образцов речи каждого информанта по 3 раза. Материалом для озвучивания информантами послужил специально составленный разработчиками интернет-архива TheSpeechAccentArchive текст, в котором учтены звукокомплексы современного английского языка, сложные для произнесения носителями азиатских языков. Образец текста и звуковые файлы – варианты его прочтения различными дикторами представлены на сайте архива [1]. Результаты исследования представлены в виде таблиц, в которых занесены, выделены и описаны все случаи сбоев, допущенных обоими тестируемыми приложениями по распознаванию речи. 1. В ходе исследования было выявлено, что из 204 сбоев, допущенных приложением S Voice, 12 были вызваны речевыми сбоями, 154 – присутствием акцентной речи (Рисунок 1), что составляет 6% и 75,5 % соответственно от общего количества. При каждом прослушивании образца звучащего текста в реализации одного и того же информантарезультаты тестирования системы различны.В случае если система не успевает обрабатывать получаемый сигнал, этот вид сбоя отражается в категории «Другие причины» (Рисунок 2). Установлено, что система не справляется с акустическими особенностями английской речи в реализации дикторов-китайцев. Особую трудность при распознавании представляет отсутствие в китайском английском межзубных звуков, замена глухих звуков звонкими и наоборот, добавление эпентетического гласного, редукция консонантных окончаний и опущение конечной согласной. Легкая хезитация не влияет на качество распознавания, но хезитация в совокупности с самокоррекцией вызывает серьезные проблемы. Количественное распределение причин появления сбоев при автоматическом распознавании речи приложением SVoice представлено на Рисунке 2 2. В ходе исследования было выявлено, что из 213 сбоев, допущенных приложением DragonDictation, 47 были вызваны речевыми сбоями, 115 – присутствием акцентной речи (Рисунок 3), что составляет 22% и 54% соответственно от общего количества.

В случае если система не успевает обрабатывать получаемый сигнал, этот вид сбоя отражается в категории «Другие причины» (Рисунок 4). Определено также, что система не справляется с особенностями китайского акцента ванглийской речи. Особую трудность представляет отсутствие в китайском английском межзубных звуков, редукция консонантных окончаний и опущение конечной согласной, трудность произнесения последовательности согласных звуков (консонантных кластеров) (Рисунок 4). Выводы относительно распознавания различных видов хезитации совпадают с описанными для системы SVoice. Следует отметить, что различия между результатами распознавания образов речи разных дикторов незначительны. При этом, в отдельных случаях система может демонстрировать кардинально отличные результаты распознавания образца звучащего текста в реализации одного и того же информанта: от полного распознавания, до распознавания с большим количеством сбоев. Выявлены единичные варианты 100% распознавания образцов акцентной речи. При этом при тестировании системы отдельными образцами речи фиксируется постоянный сбой системы: можно предположить, что система не успевает обрабатывать поступающий сигнал. Данное наблюдение позволяет выдвинуть предположение (которое может иметь значимость для дальнейшего исследования процессов распознавания речи) о том, что качество автоматического распознавания нестабильно, и это может иметь своим следствием получение лишь спорадически успешных результатов. При суммировании количественных данных, полученных в ходе проведения практического тестирования работы приложений SVoice и DragonDictation, были получены следующие результаты: из общего количества сбоев, допущенных обоими приложениями (417 (204+213)), причиной некачественного распознавания являются речевые сбои 59 (12+47), причем акцентная речь является причиной 269 (154+115) сбоев.

Количественное и процентное распределение причин возникновения сбоев, полученное по результатам тестирования двух приложений, представлено на Рисунке 5 и Рисунке 6 соответственно. Таким образом, в результате проведения практического исследования качества работы приложений SVoice и DragonDictation, наше предположение о том, что речевые сбои и акцентная речь представляют большую сложность для современных систем и программ автоматического распознавания речи, было подтверждено, доказательством чему служат полученные эмпирические данные и их количественный анализ. Можносделать вывод, что в настоящее время не существует системы, эффективно справляющейся с распознаванием акцентной речи или речи с присутствующими в ней речевыми сбоями. Одним изнаправлений, где полученные результаты могут быть полезными, являетсясозданиевстраиваемого модуля по идентификации акцента в системы распознавания речи, а такжеразработка на базе подобного модуля автоматизированных тренажеров по устранению акцента в речи на неродном языке. Литература 1. TheSpeechAccentArchive – официальный сайт [Электронный ресурс]. – Режим доступа: http://accent.gmu.edu/.

Лукина Е.М.


Комментировать


6 − один =

Яндекс.Метрика

Знания, мысли, новости - radnews.ru