RUS
EN
 / Главная / Все новости / Цифровой корпус русского языка создадут на Дальнем Востоке

Цифровой корпус русского языка создадут на Дальнем Востоке

Редакция портала «Русский мир»
02.07.2019

Фото: Depositphotos


Оцифровкой русского языка займутся специалисты Школы цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ). Они создадут цифровой корпус русского языка, предназначенный для обучения нейросетей, машин и разработки цифрового менеджера — синтетической личности на основе искусственного интеллекта, сообщает ComNews. Базой для проекта является магистерская образовательная программа «Искусственный интеллект и большие данные», открытая в вузе при содействии корпоративного университета «Сбербанка» и «Нейросетей Ашманова».

Цифровой менеджер станет одним из первых продуктов крупного проекта. Предполагается, что он сможет поддерживать с пользователем сложные диалоги, давать неочевидные ответы, направлять беседу с помощью наводящих вопросов, решать сервисные задачи в круглосуточном режиме. Использовать менеджер можно будет в работе переводчиков, call-центров, различных экспертных, управляющих и обучающих систем.

Руководитель ШЦЭ ДВФУ Илья Мирин отметил, что фактически речь идёт о создании академического корпуса русского языка подобно тем, что в глобальном масштабе имеются лишь для французского и английского языков. Лингвистам предстоит с помощью сайта и мобильного приложения собрать аудио-корпус, а затем разместить его в порядке, понятном машине. Это объёмная работа, рассчитанная не на один год. Тем не менее первый этап накопления материала реально завершить уже в следующем году, после чего его можно оцифровывать.

Привлечь к работе планируется студентов ДВФУ, филологов и специалистов по компьютерной лингвистике. Последним предстоит обработать аудиоматериал: разбить его на части, проставить ударения и паузы, обозначить монологи и диалоги, соотнести речь с написанным текстом, отделить тексты, начитанные с листа, от разговорных фраз.

Конечной целью является «обучение» русскому языку машин, уточнил Илья Мирин. На нём должны «заговорить» микроволновки и принтеры, автомобили и промышленные роботы, целый ряд других устройств и систем. А для этого требуется оцифровать язык и перевести в модель самообучающейся нейросети. Это важная цивилизационная задача, убеждён эксперт.

Эксперты считают, что проект значительно продвинет исследования в области распознавания и синтеза речи в России и мире. Причём в планах создать также речевые корпуса для языков малых народов России.

Метки:
русский язык, инновации

Новости по теме

Новые публикации

Довольно большой пласт лексики русского языка сопряжён с запахами, обонянием, ведь это один из важнейших путей познания окружающего мира. Способность воспринимать запахи называется обонянием. Это русское слово исторически родственно старославянскому вОня, по-нашему вонь, только нужно отметить, что значение у этого слова было далеко от современного…
Накануне Нового года в Индонезии открылся Центр образования на русском языке и обучения русскому языку. Центр является совместным проектом Московского педагогического государственного университета и Центра содействия межнациональному образованию «Этносфера». И. о. декана факультета регионоведения и этнокультурного образования МПГУ Елена Омельченко рассказала, почему такой центр открылся именно в Индонезии и на кого он рассчитан.