Создание синтезатора марийской речи
Опубликовано 17.01.2021 в рубрике Новости. Автор: salika
В рамках обеспечения программы мероприятий организации ОО ФНКА «Марийцы России» «Этнокультурное развитие марийцев России и укрепление единства российской нации» осуществлялся проект «Синтезатор марийской речи». Целью создания синтезатора является развитие и распространение марийского языка среди детей, молодежи, для слепых и немых людей, создавая голосовые помощники в телефонах и компьютерах, информационно-справочных системах.
Что такое синтезатор речи?
Синтезатор речи форматирует письменный текст в устный. Основная работа по созданию его заключается в создании аудиокорпуса путём студийной записи обладателя эталонного голоса, подготовка парных файлов, соответствующих каждому предложению записанного текста.
Для пополнения аудиокорпуса (https://cloud.mail.ru/public/2f76/4UHPjGjs7/) озвучивали произведения марийских авторов, а также переведенные рассказы, повести, библия на марийском языке. Всего для этого создано 70 аудиопроизведений. Записанные аудиоматериалы, произведения обработали, нормализовали, компрессировали. Все это явилось «сырьем» для аудиокорпуса. Второе назначение аудиоматериалов- они являются аудиокнигами на марийском языке. Для максимального охвата потенциальной аудитории, созданную аудиокнигу разместили в подкасте «Марий йогын», а оттуда аудиокнига автоматически расходится в Яндекс.Музыку (https://musik.yandex.ru/album/11434684), ApplePodcasts (https://podcasts.apple.com/ru/podcast/марий-йогын/idl523723633), Pad FM (https://podfm.ru/podcasts/marij-jogyn-2/) и подкасты ВКонтакте (https://vk.com/mari_podcast).
На данный момент в нашем аудиокорпусе более 13,5 часов записи голоса донора. Данный аудиокорпус будет служить «сырьем» для обучения нейросети с использованием скрытых моделей Маркова.
С готовым аудиокорпусом ведет работу программист .Он с использованием скрытых моделей Маркова и глубоких нейросетей обучает будущий синтезатор марийской речи. На этой базе в дальнейшем будет создан справочный электронный помощник «Алиса» на марийском языке.
Готовый синтезатор размещаем на сервере и с помощью API предоставляем в пользовании всем желающим, как частным лицам, так и компаниям. Например, подключив наше API, можно будет озвучивать новостные сайты на марийском языке и т.д.
В ходе работы над созданием синтезатора марийской речи полученный опыт и практику тиражируем всем желающим заниматься речевыми технологиями для других языков Российской Федерации. Для этого планируем создать видеомануалы, видеоинструкции и видеоуроки по созданию синтезаторов речи.
Для создания аудиокорпуса создали профессиональную студию звукозаписи с хорошей звукоизоляцией, звукопоглощением и звукорассеиванием.
Над созданием синтезатора марийской речи огромную работу проводит команда А.В. Чемышева, известного марийского лингвиста и языкового активиста, сотрудника Марийского научно-исследовательского института языка, литературы и истории им. В.М. Васильева. Активное участие принимают писатели, поэты, артисты, журналисты, учителя, специалисты этнокультурных центров и другие деятели, знающие марийский язык.