EN
 / Главная / Все новости / Цифровой корпус русского языка создадут на Дальнем Востоке

Цифровой корпус русского языка создадут на Дальнем Востоке

Редакция портала «Русский мир»
02.07.2019



Оцифровкой русского языка займутся специалисты Школы цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ). Они создадут цифровой корпус русского языка, предназначенный для обучения нейросетей, машин и разработки цифрового менеджера — синтетической личности на основе искусственного интеллекта, сообщает ComNews. Базой для проекта является магистерская образовательная программа «Искусственный интеллект и большие данные», открытая в вузе при содействии корпоративного университета «Сбербанка» и «Нейросетей Ашманова».

Цифровой менеджер станет одним из первых продуктов крупного проекта. Предполагается, что он сможет поддерживать с пользователем сложные диалоги, давать неочевидные ответы, направлять беседу с помощью наводящих вопросов, решать сервисные задачи в круглосуточном режиме. Использовать менеджер можно будет в работе переводчиков, call-центров, различных экспертных, управляющих и обучающих систем.

Руководитель ШЦЭ ДВФУ Илья Мирин отметил, что фактически речь идёт о создании академического корпуса русского языка подобно тем, что в глобальном масштабе имеются лишь для французского и английского языков. Лингвистам предстоит с помощью сайта и мобильного приложения собрать аудио-корпус, а затем разместить его в порядке, понятном машине. Это объёмная работа, рассчитанная не на один год. Тем не менее первый этап накопления материала реально завершить уже в следующем году, после чего его можно оцифровывать.

Привлечь к работе планируется студентов ДВФУ, филологов и специалистов по компьютерной лингвистике. Последним предстоит обработать аудиоматериал: разбить его на части, проставить ударения и паузы, обозначить монологи и диалоги, соотнести речь с написанным текстом, отделить тексты, начитанные с листа, от разговорных фраз.

Конечной целью является «обучение» русскому языку машин, уточнил Илья Мирин. На нём должны «заговорить» микроволновки и принтеры, автомобили и промышленные роботы, целый ряд других устройств и систем. А для этого требуется оцифровать язык и перевести в модель самообучающейся нейросети. Это важная цивилизационная задача, убеждён эксперт.

Эксперты считают, что проект значительно продвинет исследования в области распознавания и синтеза речи в России и мире. Причём в планах создать также речевые корпуса для языков малых народов России.

Метки:
русский язык, инновации

Новости по теме

Новые публикации

Затронем вопрос о вариативном окончании некоторых существительных в предложном падеже. Как правильно: в саде или в саду, на береге или на берегу, в лесе или в лесу? На что нужно обратить внимание при выборе формы слова?
21 апреля в театре Турски в Марселе (Франция) открывается X Международный фестиваль русских школ дополнительного образования. Член оргкомитета фестиваля Гузель Агишина рассказала «Русскому миру», что его цель в том, чтобы показать, насколько большую работу ведут эти школы и как талантливы их ученики.
Цветаева