Причины снижения качества автоматического распознавания речи

30.05.2019

admin

В настоящее время активно ведутся разработки в области распознавания речи. Системы и программы работают на высоком, качественном уровне, но достигнутые результаты не позволяют говорить о том, что машина может распознавать речь так же, как человек. Существует ряд причин, снижающих качество распознавания. В данной исследовательской работе рассмотрены такие причины, как физические (неречевые) помехи, речевые сбои и акцентная речь (речевые помехи). Одной из целей современных разработчиков систем распознавания речи является создание программы, которая бы давала высокие показатели в условиях физических помех, а также при распознавании акцентной речи и спонтанной речи с речевыми сбоями. В процессе проведения исследования было выдвинуто следующее предположение: если современные технологии не имеют трудностей с распознаванием отдельных команд и даже слитных заранее подготовленных текстов, а физические помехи при этомустраняются с помощью технологий шумоочистки, то присутствие в записи речевых сбоев (оговорок, хезитаций, самокоррекций), свойственных спонтанной речи, или акцентной речи,может являться причиной большого количества сбоев. Анализ теоретического материала в сочетании с собственными наблюдениями позволили сформулировать задачи практического исследования в данной работе. Для выработки рекомендаций по совершенствованию программ распознавания речи был проведён анализ работы приложений S Voice от компании Samsung и DragonDictation от компании Nuance. Новизна исследования состоит в использовании акцентной (не эталонной) речи для тестирования указанных речевых систем, при этом некоторые записи содержат также признаки речевых сбоев и фи зические помехи.

Источником материала для проведения эксперимента послужил интернет-архив TheSpeechAccentArchive, в котором представлены образцы акцентной английской речи. Была произведена выборка образцов чтения текста на английском языке носителями китайского языка. В группе информантов присутствуют представители женского и мужского полов, разных возрастных категорий. Для проведения данного исследования были отобраны образцы речи 8-ми представителей Китая обоих полов и разных возрастных категорий: 2 девушки и 2 парней в возрасте 22-25 лет; 2 женщины и 2 мужчин в возрасте 42-49.Информанты подобраны с учетом диалектной вариативности в китайском языке: 1 группа (молодые информанты) – носители кантонского диалекта, 2 группа (взрослые информанты) –носители мандаринского диалекта. Оба приложения по распознаванию речи тестировались с использованием образцов речи каждого информанта по 3 раза. Материалом для озвучивания информантами послужил специально составленный разработчиками интернет-архива TheSpeechAccentArchive текст, в котором учтены звукокомплексы современного английского языка, сложные для произнесения носителями азиатских языков. Образец текста и звуковые файлы – варианты его прочтения различными дикторами представлены на сайте архива [1]. Результаты исследования представлены в виде таблиц, в которых занесены, выделены и описаны все случаи сбоев, допущенных обоими тестируемыми приложениями по распознаванию речи. 1. В ходе исследования было выявлено, что из 204 сбоев, допущенных приложением S Voice, 12 были вызваны речевыми сбоями, 154 – присутствием акцентной речи (Рисунок 1), что составляет 6% и 75,5 % соответственно от общего количества. При каждом прослушивании образца звучащего текста в реализации одного и того же информантарезультаты тестирования системы различны.В случае если система не успевает обрабатывать получаемый сигнал, этот вид сбоя отражается в категории «Другие причины» (Рисунок 2). Установлено, что система не справляется с акустическими особенностями английской речи в реализации дикторов-китайцев. Особую трудность при распознавании представляет отсутствие в китайском английском межзубных звуков, замена глухих звуков звонкими и наоборот, добавление эпентетического гласного, редукция консонантных окончаний и опущение конечной согласной. Легкая хезитация не влияет на качество распознавания, но хезитация в совокупности с самокоррекцией вызывает серьезные проблемы. Количественное распределение причин появления сбоев при автоматическом распознавании речи приложением SVoice представлено на Рисунке 2 2. В ходе исследования было выявлено, что из 213 сбоев, допущенных приложением DragonDictation, 47 были вызваны речевыми сбоями, 115 – присутствием акцентной речи (Рисунок 3), что составляет 22% и 54% соответственно от общего количества.

В случае если система не успевает обрабатывать получаемый сигнал, этот вид сбоя отражается в категории «Другие причины» (Рисунок 4). Определено также, что система не справляется с особенностями китайского акцента ванглийской речи. Особую трудность представляет отсутствие в китайском английском межзубных звуков, редукция консонантных окончаний и опущение конечной согласной, трудность произнесения последовательности согласных звуков (консонантных кластеров) (Рисунок 4). Выводы относительно распознавания различных видов хезитации совпадают с описанными для системы SVoice. Следует отметить, что различия между результатами распознавания образов речи разных дикторов незначительны. При этом, в отдельных случаях система может демонстрировать кардинально отличные результаты распознавания образца звучащего текста в реализации одного и того же информанта: от полного распознавания, до распознавания с большим количеством сбоев. Выявлены единичные варианты 100% распознавания образцов акцентной речи. При этом при тестировании системы отдельными образцами речи фиксируется постоянный сбой системы: можно предположить, что система не успевает обрабатывать поступающий сигнал. Данное наблюдение позволяет выдвинуть предположение (которое может иметь значимость для дальнейшего исследования процессов распознавания речи) о том, что качество автоматического распознавания нестабильно, и это может иметь своим следствием получение лишь спорадически успешных результатов. При суммировании количественных данных, полученных в ходе проведения практического тестирования работы приложений SVoice и DragonDictation, были получены следующие результаты: из общего количества сбоев, допущенных обоими приложениями (417 (204+213)), причиной некачественного распознавания являются речевые сбои 59 (12+47), причем акцентная речь является причиной 269 (154+115) сбоев.

Количественное и процентное распределение причин возникновения сбоев, полученное по результатам тестирования двух приложений, представлено на Рисунке 5 и Рисунке 6 соответственно. Таким образом, в результате проведения практического исследования качества работы приложений SVoice и DragonDictation, наше предположение о том, что речевые сбои и акцентная речь представляют большую сложность для современных систем и программ автоматического распознавания речи, было подтверждено, доказательством чему служат полученные эмпирические данные и их количественный анализ. Можносделать вывод, что в настоящее время не существует системы, эффективно справляющейся с распознаванием акцентной речи или речи с присутствующими в ней речевыми сбоями. Одним изнаправлений, где полученные результаты могут быть полезными, являетсясозданиевстраиваемого модуля по идентификации акцента в системы распознавания речи, а такжеразработка на базе подобного модуля автоматизированных тренажеров по устранению акцента в речи на неродном языке. Литература 1. TheSpeechAccentArchive – официальный сайт [Электронный ресурс]. – Режим доступа: http://accent.gmu.edu/.

Лукина Е.М.

Рубрика: Образование

Метки: речь, софт

Комментировать

Свежие записи
Свежие комментарии
- Евгений Тимофеев к записи Духовность и Россия
- Алексей к записи Свои права МОЖНО и НУЖНО защищать!
- Hdpape к записи Мотивация к чтению и уровень образования
- Чинара к записи Минута и вся жизнь
- Чинара к записи Минута и вся жизнь
Метки
Афганистан Россия Таруса Урал бизнес ботаника война воспоминания геополитика город деньги дети женщина жизнь здоровье интернет искусство история книга коррупция культура литература любовь маркетинг музей наука образование обучение общество первая мировая война политика природа психология путешествие путешествия семья сми сочинение труд туризм философия человек чтение школа экономика
Рубрики

Календарь

Популярное
- Истинный и ложный патриотизм в романе Л.Н. Толстого «Война и...
  Views (1757) | 26/02/2019
- Противостояние коалиций: НАТО и Организация Варшавского Дого...
  Views (480) | 20/05/2019
- История развития криминальной журналистики в России
  Views (378) | 15/03/2018
- Любовь — сущность жизни Наташи Ростовой (по роману Л.Н...
  Views (274) | 16/01/2019

Апрель 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Мар
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30