Создание синтезатора марийской речи

Опубликовано 17.01.2021 в рубрике Новости. Автор:

В рамках обеспечения программы мероприятий организации ОО ФНКА «Марийцы России» «Этнокультурное развитие марийцев России и укрепление единства российской нации» осуществлялся проект «Синтезатор марийской речи». Целью создания синтезатора является развитие и распространение марийского языка среди детей, молодежи, для слепых и немых людей, создавая голосовые помощники в телефонах и компьютерах, информационно-справочных системах.

Что такое синтезатор речи?

Синтезатор речи форматирует письменный текст в устный. Основная работа по созданию его заключается в создании аудиокорпуса путём студийной записи обладателя эталонного голоса, подготовка парных файлов, соответствующих каждому предложению записанного текста.

Для пополнения аудиокорпуса (https://cloud.mail.ru/public/2f76/4UHPjGjs7/) озвучивали произведения марийских авторов, а также переведенные рассказы, повести, библия на марийском языке. Всего для этого создано 70 аудиопроизведений. Записанные аудиоматериалы, произведения обработали, нормализовали, компрессировали. Все это явилось «сырьем» для аудиокорпуса. Второе назначение аудиоматериалов- они являются аудиокнигами на марийском языке. Для максимального охвата потенциальной аудитории, созданную аудиокнигу разместили в подкасте «Марий йогын», а оттуда аудиокнига автоматически расходится в Яндекс.Музыку (https://musik.yandex.ru/album/11434684), ApplePodcasts (https://podcasts.apple.com/ru/podcast/марий-йогын/idl523723633), Pad FM (https://podfm.ru/podcasts/marij-jogyn-2/) и подкасты ВКонтакте (https://vk.com/mari_podcast).

На данный момент в нашем аудиокорпусе более 13,5 часов записи голоса донора. Данный аудиокорпус будет служить «сырьем» для обучения нейросети с использованием скрытых моделей Маркова.

С готовым аудиокорпусом ведет работу программист .Он с использованием скрытых моделей Маркова и глубоких нейросетей обучает будущий синтезатор марийской речи. На этой базе в дальнейшем будет создан справочный электронный помощник «Алиса» на марийском языке.

Готовый синтезатор размещаем на сервере и с помощью API предоставляем в пользовании всем желающим, как частным лицам, так и компаниям. Например, подключив наше API, можно будет озвучивать новостные сайты на марийском языке и т.д.

В ходе работы над созданием синтезатора марийской речи полученный опыт и практику тиражируем всем желающим заниматься речевыми технологиями для других языков Российской Федерации. Для этого планируем создать видеомануалы, видеоинструкции и видеоуроки по созданию синтезаторов речи.

Для создания аудиокорпуса создали профессиональную студию звукозаписи с хорошей звукоизоляцией, звукопоглощением и звукорассеиванием.

Над созданием синтезатора марийской речи огромную работу проводит команда А.В. Чемышева, известного марийского лингвиста и языкового активиста, сотрудника Марийского научно-исследовательского института языка, литературы и истории им. В.М. Васильева. Активное участие принимают писатели, поэты, артисты, журналисты, учителя, специалисты этнокультурных центров и другие деятели, знающие марийский язык.

Поделиться:

Рубрики