SPA FRA ENG ARA
EN

В России научили нейросети расшифровывать архивные документы с дореволюционной орфографией

Редакция портала «Русский мир»
25.01.2023


Специалисты «Яндекса» обучили нейросети распознавать рукописные архивные документы на русском языке с дореволюционной орфографией. В компании рассказали, что площадка, обладающая названными возможностями, уже доступна. На сервисе  открыт доступ к миллионам страниц исторических документов с расшифровкой, сообщает РИА «Новости».

Особенностью архивных текстов, созданных со старой орфографией, является их сложность для расшифровки. В сервисе «Поиск по архивам» внедрена технология, базирующаяся на обученных нейросетях. Пользователи могут познакомиться с более чем двумя с половиной миллионов страниц архивных документов с расшифровкой.

Система способна распознавать особенности почерка, а также буквы, которые исчезли из современного русского языка в результате реформы. Кроме того, алгоритм осознаёт «особую структуру архивных документов».

Нейросеть проходила обучение на фрагментах из сотен тысяч рукописных строк, написанных в XVIII-XIX веках, и десятков миллионов сгенерированных примеров. В результате она получила способность распознать текст, непонятный человеку без специальных знаний и опыта чтения рукописей. Отмечается, что на расшифровку страницы исторического документа алгоритм тратит всего несколько секунд.
Метки:
нейросети, документы

Новые публикации

Мы давно знаем, что Зорге – выдающийся разведчик, настоящий герой, чуть ли не единственный, кто предупредил, что немцы нападут именно 22 июня. Как знаем и о том, что Сталин не поверил ему. Но всё это – частички мифа о катастрофе 41-го года, и Зорге давно стал частичкой этого мифа. 130-летие разведчика – хороший повод поговорить о настоящем Рихарде Зорге.