EN

Обновлённые спелл-чекеры – 2010. ОРФО (версия 10.0) VS встроенный спеллер MS OFFICE 2010

 / Главная / Фонд / Нам пишут / Обновлённые спелл-чекеры – 2010. ОРФО (версия 10.0) VS встроенный спеллер MS OFFICE 2010

Обновлённые спелл-чекеры – 2010. ОРФО (версия 10.0) VS встроенный спеллер MS OFFICE 2010

Краткое резюме

В статье сопоставлены две программы проверки орфографии: ОРФО (версия 10.0), выпускаемая российской компанией «Информатик», и встроенная проверка русского Office 2010, разработанная компанией Microsoft .

Работа программ сравнивалась на одинаковом наборе данных. В основном это срезы различных словников, например, частотного словаря интернет-страниц Рунета, словаря общеупотребительной лексики русского языка и т.п. Объём срезов различный, от 12 миллионов до 1-2 тысяч слов в одном срезе.

Сопоставление показало, что по сравнению с встроенной проверкой MS Office 2010, модуль ОРФО знает больше слов, даёт более точные подсказки, правильно расставляет переносы в словах с учётом книжного и газетного стандарта переносов, обладает более мощным и удобным инструментом для обучения программы новым словам.

При этом встроенная проверка MS Office 2010 различает при проверке русского текста буквы «е» и «ё», чего не делает ОРФО, и обгоняет ОРФО по скорости проверки.


Большинство современных пользователей ПК так или иначе сталкивалось с программами проверки правописания (они же спелл-чекеры или спеллеры), хотя бы в виде текста в популярном редакторе MS Word, в котором некоторые слова подчёркнуты красной волнистой чертой: так встроенный модуль проверки правописания размечает неизвестные ему слова. Проверка правописания – полезный инструмент, который позволяет избежать многих досадных опечаток в тексте. Но инструмент этот требует внимательного отношения, потому что и сам способен на анекдотические ошибки. Часть из них даже попала в историю, а точнее в «Википедию».

В 2010 году на российский рынок выходят сразу два обновлённых спелл-чекера для русского языка: ОРФО, версия 10.0, выпущенная российской компанией «Информатик», и встроенная проверка Office 2010 компании Microsoft. Этот текст – попытка сравнить и оценить два спелл-чекера в действии.

Как работает проверка правописания

Сначала краткое описание алгоритма работы программ для проверки правописания. В процессе работы спелл-чекер:

1. Сравнивает словоформу из текста со списком словоформ своих встроенных словарей. Так программа ищет потенциальные ошибки: если словоформа в словаре не обнаружена, то спелл-чекер размечает слово как незнакомое и, возможно, ошибочное. На самом деле такое слово может быть написано правильно, но оно отсутствует в словаре спелл-чекера.

2. Подбирает варианты правильного написания слова и предлагает одну или несколько замен. Замены также называют подсказками. Режим подсказок обычно управляется пользователем, т.е. его можно отключить.

3. Позволяет добавить новые слова во вспомогательный (пользовательский) словарь.

Оба спелл-чекера, о которых идёт речь в этой статье – и ОРФО, и встроенный спелл-чекер от Microsoft (в дальнейшем для простоты изложения он будет фигурировать как МС-спеллер), – выполняют все три действия. С первой, собственно проверочной, частью, оба справляются примерно одинаково, но режимы подсказки и обучения у них существенно различаются.

Подсказки: точность ОРФО против количества в МС-спеллере

ОРФО предлагает меньше подсказок, чем МС-спеллер, но они более точные и эффективные с точки зрения удобства и скорости пользовательской работы с текстом. В большинстве случаев для генерации подсказки ОРФО обходится одноместными заменами внутри неизвестного слова (последовательно берёт каждую букву и подставляет вместо неё другие буквы). Это значит, что слова, в написании которых допущено более одной ошибки, останутся без вариантов замены, зато все предложенные ОРФО подсказки вполне уместны. МС-спеллер делает в неизвестном слове разные виды многоместных замен (заменяет несколько букв сразу, переставляет буквы, разрезает слова пробелом и дефисом, модифицирует части слова и т.п.), что помогает ему давать верные подсказки, но, с другой стороны, является источником множества ошибочных вариантов. Серьёзным минусом многоместной подсказки МС-спеллера является замена целых частей основ или комплексов служебных морфем (т.н. ассоциативные подсказки). Такая замена почти всегда приводит к анекдотическому результату, как, например, подсказка электродоилка вместо неизвестного МС-спеллеру слова электроодеяла.

Типичные примеры:

1. На неизвестное слово эрекционный ОРФО предлагает одну подсказку (эрекционные > эжекционные), а МС-спеллер – несколько, отчасти сомнительных (эрекционные > реакционные; фрикционные; фракционные; проекционные, реакционной, фрикционной, фракционной).

2. Слово «протовирус» неизвестно обоим спелл-чекерам. ОРФО оставляет его без подсказки, МС-спеллер предлагает подсказку «протоиерей» (протовирус > протоиерей, протоиерея).

3. Ещё примеры ассоциативных подсказок МС-спеллера: желтозубый > белозубый; однодверный > одноядерный, однодетный, однотоварный, однодневный, одноцветный; электроодеяла > электродоилка.

4. Слово актино-бациллез написано с ошибкой, лишним дефисом. ОРФО предлагает единственный вариант подсказки – актинобациллез, и это именно тот вариант, который подойдёт пользователю. МС-спеллер предлагает 10 подсказок, среди которых есть и нужный вариант, но он зрительно теряется в таком длинном списке (актино-бациллез > актинобациллёз; актинобациллез; актинобациллёза; актинобациллёзе; актинобациллёзу; актинобациллёзы; актинобациллеза; актинобациллезе; актинобациллезу; актинобациллезы)

5. ОРФО размечает как неправильные слова досчатый, разбухнувший, булгахтер и т.п., но не даёт на них подсказку, так как для этого пришлось бы произвести больше одной замены – заменить или удалить 2 буквы сразу, зато МС-спеллер предлагает правильный вариант досчатый > дощатый, разбухнувший > разбухший, булгахтер > бухгалтер.

Резать или оставить?

Разработчики ОРФО много лет назад отказались от генерации подсказки путём разрезания слова на две части, т.к. среди полученных таким образом подсказок мало осмысленных.

Разработчики МС-спеллера решили возродить этот алгоритм и дополнительно «усовершенствовать» его заменами в отрезаемых частях. Такое изменение алгоритма практически свело к нулю ценность предлагаемых подсказок.

Один из напрашивающихся приёмов сгенерировать подсказку – это предположить, что два правильных слова слились вместе из-за отсутствия пробела. В таком случае спелл-чекер должен попытаться поделить неизвестное слово на несколько известных, разрезав его на части.

Но напрашивающееся не всегда значит правильное. Приём «разрезания» часто приводит к появлению огромного количества совершенно бесполезных и отчасти анекдотичных вариантов замен. Кроме примера, приведенного в начале статьи, из форума в форум кочуют «ель цинизма», «кол басит», «культ урологии», предложенные редактором MS Word в качестве замены для незнакомых слов. Мало кто знает эти и другие курьезные замены были предложены более 10 лет назад орфографическим модулем ОРФО, в то время использовавшимся в составе встроенного спеллера Microsoft Office.

С тех пор разработчики ОРФО приняли решение отказаться от разрезания неизвестного слова, т.к. эффективность этого приёма для русского языка низкая, а обилие неверных подсказок в списке замен раздражает пользователей.

Разработчики Microsoft, напротив, решили в Office 2010 возродить этот прием и пройтись по уже известным проблемам.

Вот какие варианты замен можно сегодня найти среди подсказок МС-спеллера: сержантик → серж антик; просвинцованный → про свинцованный; прожилочки → про жилочки, прожил очки; бусики → б усики; палаточки → пала точки, палат очки; поганенький → поганен кий, парусообразно → пару сообразно, пар усообразно, Путинистов → Путин истов.

Конечно, в подсказке с разрезанием есть своя положительная сторона. МС-спеллер выдаст подсказки на такие очевидные случаи, как досвидания, ненадо, нехочу, ненамерен . ОРФО этого не сделает. Но положительная сторона существует ровно до тех пор, пока спелл-чекер оставляет без изменения все части слова после разрезания, как это когда-то делала проверка ОРФО. И как раз в этом месте разработчики Microsoft решили отойти от более или менее понятного алгоритма и дополнительно «улучшить» его.

MC-спеллер применяет к разрезанным частям словам все другие приемы генерации подсказок – опущение букв, одно- и двухбуквенные замены, – и стремится таким путем превратить неизвестное слово в словарное: однодверный → одно верный (разрезание + удаление одной буквы), медикофармацевтический→ медик фармацевтический (то же), поллитровочек → пол-литровое (разрезание дефисом и удаление двух букв), Политковские > по-литовски (разрезание дефисом, удаление двух букв).

При подобном подходе подсказки теряют всякий смысл. Но МС-спеллер предлагает подсказку с разрезанием в среднем в 40% случаев, что в итоге только раздражает пользователей, а не помогает им.

Коварный дефис

Сопоставление двух спелл-чекеров показало, что ОРФО сигнализирует о большем количестве ошибок, связанных с употреблением дефиса (пропуск дефиса, либо лишний дефис), отслеживает согласование частей и сочетаемость морфем и частей речи в словах с дефисом.

МС-спеллер, в отличие от ОРФО, не отслеживает согласование частей сложных слов, написанных через дефис. Все слова, состоящие из знакомых ему частей, включая те, в которых нарушено согласование, признаются правильными и не размечаются, как ошибочные. Например, ОРФО отметит как ошибочное рассогласованное употребление частей слова в словах севером-восточный или купля-продаж , а МС-спеллер пропустит такие слова как правильные.

В русском языке дефис используется часто, в том числе и для образования новых слов. Особенностью русской грамматики является согласование частей слова, разделенных дефисом (например, правильно женщины-врачи, а не *женщина-врачи). Качество проверки написания слов с дефисом и корректность подсказок было проверено на нескольких массивах данных: сложные существительные с дефисом, включая фамилии; слова с постпозитивными частицами -ка и -то; слова с «лишним» дефисом (сохранившийся в тексте жесткий перенос); слова с начальными частями, заимствованными из латыни и греческого (авто-, библио-, зоо- и т.п.); слова, начинающиеся на пол- и полу- и некоторые другие. Сопоставление проводилось при выключенных граммерах (модулях проверки грамматики), т.к. Microsoft в настоящее время использует для проверки грамматики русского языка грамматический модуль ОРФО.

Типичные примеры:

1. ОРФО подсвечивает как ошибочные слова с несогласованными частями: Римский-Корсаковы, цари-пушка, женщина-врачом, один-одинешенька, во-десятых и т.п. МС-спеллер такие слова пропускает как правильные.

2. ОРФО предлагает правильную подсказку для слов, начинающихся с по-, даже если такое слово отсутствует в его словаре полностью, а есть только вторая его часть: поблошьи > по-блошьи.

3. МС-спеллер не предлагает вставить дефис, если слова нет в его словаре полностью: поблошьи > побольше; полоши;пообошью; поблажи; поблажки; поблёкши; поблекши; попляши; побелишь; поблеешь. Если слово есть в словаре полностью, то МС-спеллер выдает корректную подсказку, но в числе большого количества других: помоему > по-моему; помоем; помоями; помоем у. Ср. ОРФО: помоему > по-моему; помоем.

ОРФО: умный модуль обучения

Функция добавления новых слов в пользовательский словарь есть в обоих спелл-чекерах. Различие между ними состоит в том, что в словарь встроенного спеллера MS Office слово попадает в той форме, в какой встретилось в тексте (огневзломостойкие), а следующую форму (огневзломостойкого) приходится вводить снова. ОРФО позволяет пользователю добавить новое слово в словарь только один раз. После чего все формы этого слова также будут известны программе. И это одна из самых интересных возможностей этого спелл-чекера.

В русском языке богатое словоизменение. У существительных потенциально возможны 12 форм (слово изменяется по 6 падежам, в единственном и множественном числе). У глагола форм может быть еще больше. Это значит, что пользователю МС-спеллера придется потрудиться, чтобы действительно добавить в свой вспомогательный словарь новое слово. Часть форм одного слова может совпасть, но все равно для изменяемого слова не обойтись вводом только одной формы.

Пользователь ОРФО будет вводить новое слово в свой словарь только один раз.

Как же обучающий модуль ОРФО определяет способ словоизменения для нового слова? Этот процесс можно рассматривать как первую в отечественной лингвистике практическую попытку построить модель языковой компетенции носителя языка.

Обучающая программа получает на вход слово, отделяет у него возможные варианты окончания, и по оставшейся потенциальной основе строит гипотезу о типе словоизменения и классе (существительное, глагол и т.п.). Гипотез обычно больше одной, и программа выдает пользователю список, в котором наиболее правдоподобные гипотезы располагаются сверху. В обучающей программе также предусмотрено несколько уточняющих механизмов: пользователь может жестко задать часть речи и одушевленность для нового слова, или жестко фиксировать одну из форм, и таким образом, сократить количество гипотез обучающего модуля.

После того как пользователь ввёл новое слово в словарь, программа распознает в тексте все формы этого слова, и если в любой форме допущена ошибка, тут же предложит ее исправить.

Встроенный словарь и скорость работы

Что лежит в словаре?

По объёму встроенных словарей ОРФО и МС-спеллер показали примерно равные результаты, хотя ОРФО распознает больше неологизмов и актуальных для современного русскоязычного пользователя названий компаний, персоналий и т.п..

При прогоне по самому объемному тестовому срезу в более чем 12 миллионов слов (точное количество: 12 220856 слов) ОРФО распознал 1657427 слов русского языка, а МС-спеллер – 1596288.

Базовый словарь ОРФО постоянно пополнялся неологизмами и актуальной лексикой, такой как названия популярных компаний и брендов, персоналиями и т.п. Сейчас в словарь входят такие слова, как блогосфера, хастл, электроодеяло, блефаропластика, хьюмидоры, Кавминводы, Билялетдинов и многие другие. МС-спеллер этих слов не знает.

Некоторые пробелы в составе новых слов в словаре МС-спеллера выглядят даже комично. Например, во встроенном словаре этого спеллера нет слова автозамена (предлагаются варианты подсказок автозамена > автогамена, авто замена). Но само слово является термином, который активно используется в справочной системе и документации к русской версии MS OFFICE. Существует пользовательское меню «Параметры автозамены» и т.п.

Скорость проверки: МС-спеллер опережает ОРФО

При тестировании скорости работы спелл-чекеров, МС-спеллер показал лучший результат. Тест на сравнение скорости проверки орфографии при работе с большими документами показал, что по скорости МС-спеллер обгоняет ОРФО в 3 раза. Это серьезное преимущество МС-спеллера.

Обработка буквы «ё»

У буквы «ё» в русском языке непростая жизнь: ее вводили, упраздняли, игнорировали и, наоборот, боролись за ее присутствие в печатных изданиях. Сейчас в современном письменном языке, включая рукописные, печатные бумажные и электронные тексты, сложилась традиция опускать две точки при написании этой буквы. Другими словами, в письменных текстах буква «ё» заменяется буквой «е», и это не является орфографической или грамматической ошибкой.

Теоретически, в задачи спелл-чекер может входить распознавание слов, где буква «е» на самом деле подменяет свою соседку по алфавиту, и генерация подсказок с вариантами написания с «ё».

На практике такая задача оказывается одновременно и мало востребованной, и сложной в решении. Замена «ё» на «е» – это не ошибка (по крайней мере, в именах нарицательных), и русскоязычные пользователи в большинстве своем именно так и воспринимают подобные замены – как норму.

При этом разработать хороший и качественный алгоритм для распознавания слов с «ё» совсем не просто. В русском языке существует много сложных ситуаций, таких, например, как омонимы, различающиеся парой букв е/ё: все/всё, чем/чём, лет/лёт и т.п. Чтобы предложить верную подсказку слову из такой пары, надо задействовать знания не только о самом слове, но и о его окружении в предложении, плюс вовлекать пользователя в интерактивный диалог.

Разработчики ОРФО не стали в версии 10.0 применять правила для распознавания «ё». Это может приводить к пропуску единичных ошибок, в которых на месте буквы «е» стоит «ё» - ситуация для русских текстов редкая. Например, слово абонентскоё будет пропущено ОРФО как правильное.

МС-спеллер располагает опцией «Использовать ё». При выборе этой опции подключается дополнительный словарь, содержащий слова с буквой «ё», и, теоретически, спел-чекер должен распознавать слова с «е» вместо «ё» как ошибочные и предлагать правильные варианты их написании. В действительность действия МС-спеллера в этом месте не всегда понятны. Во многих случаях распознавание ошибок срабатывает, и появляются правильные подсказки слов, где на месте «ё» написано «е». Например, спеллер предлагает замену пчел > пчёл. Но в других случаях явное опущение буквы «ё» в частотных словах расценивается спеллером как правильное. Например, слово «ее» вместо «её», при включенной опции «Использовать ё», не распознается МС-спеллером, как ошибочное.

Заключение

ОРФО уже много лет пополняется данными с учетом всех особенностей грамматики и лексики русского языка. Разработчики спелл-чекера корректировали алгоритмы работы программы, чтобы избежать лишнего «шума» в подсказках и облегчить жизнь пользователю. Много усилий и работы было затрачено на модуль обучения, и эти усилия себя оправдали. Модуль получился не просто удобным и существенно сокращающим усилия пользователя по вводу новых слов, он еще представляет собой оригинальную лингвистическую модель, не имеющую аналогов.

ОРФО знает больше современных неологизмов, предлагает более точные подсказки, позволяет заносить в пользовательский словарь слово сразу во всех формах. Все это делает спелл-чекер ОРФО максимально удобным для работы с современными текстами на русском языке.

МС-спеллер существенно уступает по эффективности подсказок и удобству работы с новыми словами, но выигрывает по скорости проверки. Также МС-спеллер способен правильно обрабатывать слова с буквой «ё» и предлагать верные варианты исправления опечаток в таких словах.

У российских пользователей в 2010 году есть непростой выбор. Преимущество МС-спеллер состоит в том, что этот спеллер уже стоит в MS OFFICE. Пользователю не надо предпринимать усилий, чтобы начать с ним работать.

Но в целом ОРФО выглядит более привлекательным и приспособленным к потребностям русскоязычных пользователей. Те из них, кто попробует ОРФО в работе, вряд ли откажутся от него в пользу спеллера Microsoft.

Документальный фильм «Русский мир: настоящее и будущее»

Организации фонда






НОВОСТИ ФОНДА “РУССКИЙ МИР”

НАМ ПИШУТ

Исполнительному директору фонда «Русский мир» Кочину В. В. Уважаемый Владимир Вячеславович! Разрешите выразить своё искреннее уважение и поблагодарить фонд «Русский мир» за организацию поездки 32 сирийских школьников в детский центр «Орлёнок» в... .

пресса О ФОНДЕ “РУССКИЙ МИР”

Студенты Педагогического института Иркутского государственного университета (ИГУ) во время стажировки в Монголии обучили русскому языку почти 3 тыс. школьников, сообщила пресс-служба вуза в пятницу. "Почти месяц студенты обучали русскому языку как иностранному учеников
«Интерфакс», 15.12.2023

КОНТАКТЫ

Приемная фонда “Русский мир”
Тел.: (495) 981-56-80
Тел.: (499) 519-01-92

Пресс-секретарь фонда “Русский мир”
Тел.: (909) 935-60-17

Задать вопрос по электронной почте:

Защита от автоматических сообщений
CAPTCHA
Цветаева