ABBYY FineReader Engine ABBYY FineReader Engine

Многофункциональный OCR SDK для разработчиков

Используйте OCR-технологии с элементами искусственного интеллекта

Полный набор технологий распознавания

ABBYY FineReader Engine — это полный набор технологий, которые позволяют распознавать печатный текст (OCR), рукопечатный текст (ICR), метки (OMR) и штрихкоды (OBR). ABBYY OCR поддерживает максимальное число языков распознавания, которые можно комбинировать. Ниже представлен список доступных технологий и варианты обработки документов.

Технология доступна для более чем 200 языков:

  • Европейские языки: латиница, кириллица, армянский и греческий алфавиты
  • Другие языки: китайский, японский, корейский, арабский, фарси, тайский, вьетнамский, иврит, бирманский
  • FineReader XIX — для старых документов, книг и газет, напечатанных с 1600 по 1937 годы на английском, французском, немецком, итальянском и испанском языках старыми шрифтами, среди которых Fraktur, Schwabacher и Gothic
  • Распознавание шрифтов OCR-A, OCR-B, MICR (E13B) и CMC7 и документов, напечатанных на матричных принтерах или пишущих машинках

Технология доступна для более чем 120 языков:

  • Европейские и другие языки
  • 22 региональных рукопечатных стиля
  • Распознавание рукопечатных символов в полях и рамках
  • Распознавание индийских цифр, используемых в арабских государствах

Возможно распознавание рукопечатной информации на разных языках одновременно (многоязычный ICR).

Технология ABBYY OMR позволяет распознавать одиночные метки, группы меток, и метки, измененные вручную, например:

  • Метки в индивидуальных квадратах
  • Метки на пустом фоне
  • Нестандартные типы меток (требуется обучение инструмента)
  • Поддержка одномерных и двухмерных штрихкодов
  • Автоматическое определение и распознавание штрихкодов, расположенных на документе под любым углом

Режимы распознавания

Выбирайте режим распознавания, чтобы настраивать скорость и точность обработки. Пользователям доступны Normal, Fast и Balanced режимы OCR и ICR-распознавания.

  • Режим распознавания Normal

    Наиболее точный режим для наилучшего качества распознавания. Рекомендован, если распознаваемая информация в дальнейшем будет использоваться для других целей или качество распознавания играет первостепенную роль.

  • Режим распознавания Fast

    Предназначен для обработки больших объемов документов, когда приоритетной является скорость распознавания. Этот режим позволяет увеличить скорость обработки на 200-250%.

  • Режим распознавания Balanced

    Устанавливает промежуточные значения параметров скорости и качества распознавания по сравнению с режимами Normal и Fast.

Полнотекстовое и зональное распознавание

Существуют два типа распознавания – полнотекстовое и зональное. Полнотекстовое распознавание использует технологию распознавания печатного текста (OCR) и применяется в сценарии конвертации документов. Зональное, то есть распознавание на уровне областей, использует не только OCR, но и технологию распознавания рукопечатного текста (ICR), а также другие технологии, которые могут быть востребованы для распознавания специфических данных, расположенных в той или иной области на документе.

В таблице указаны особенности использования каждого типа распознавания:

Спецификация Полнотекстовое распознавание Зональное распознавание
Где используется: Конвертация документов, архивные сценарии Распознавание областей
Анализ структуры документа: Общий анализ структуры документа, анализ структуры бухгалтерских документов, анализ структуры документа для полнотекстового индексирования Ручное указание областей для распознавания определенных блоков
Распознавание: OCR с точностью 99% OCR, ICR, OMR, распознавание штрихкодов с предопределенными типами и диапазоном значений данных позволяет достигнуть точности в 99,99%
Верификация: Рекомендована для сценария переиспользования контента Обязательна в большинстве случаев
Синтез: Используется для воссоздания вида документа Не используется
Экспорт результатов распознавания: Файлы документов (RTF, DOC, PDF и пр.) Экспорт в файлы XML или базу данных

Это базовый режим распознавания для самых разных задач, таких как:

  • Оцифровка книг и распознавание документов для архивного хранения.
  • Конвертация документов для переиспользования контента.
  • Распознавание опорного текста для определения полей и классификации документов.

Все эти задачи подразумевают распознавание всего текста на странице. Полученный текст может экспортироваться в виде простого текста или как готовый документ в заданном формате.

ABBYY FineReader Engine поддерживает распознавание на уровне областей (зональное распознавание), необходимое в таких бизнес-процессах, как ввод форм, классификация по ключевым словам, машинное зрение и роботизированная автоматизация процессов (RPA). К основным функциям относятся многоязыковое распознавание печатного (OCR) и рукопечатного текста (ICR), распознавание меток (OMR) и штрихкодов (OBR), а также целый ряд специальных возможностей, например:

  • Распознавание информации из полей, ограниченных различными рамками
  • Распознавание с применением преднастроенного алфавита, словарей, регулярных выражений, стилей рукописного текста и т. д.
  • Обнаружение пробелов внутри полей
  • Интеллектуальная обработка блоков информации с пересекающимися частями и линиями
  • Удаление «мусора» из текстовых блоков с возможностью задавать размеры черных или белых точек.

Зональное распознавание также поддерживают специальные инструменты для разработчиков, среди которых Voting API и On-the-Fly Recognition Tuning.

Пользовательские языки

ABBYY FineReader Engine предоставляет API для создания и редактирования языков распознавания, создания копий уже заданных языков распознавания и их дальнейшего редактирования, добавления новых слов в пользовательские языки. Варианты применения:

  • Чтобы повысить качество ICR-распознавания, рекомендуется использовать пользовательский язык, содержащий все возможные варианты значений, которые могут быть введены в то или иное поле (почтовые индексы, товарные коды и т.д.)
  • Чтобы повысить качество распознавания товарных кодов, номеров телефона и паспортных данных, создайте новый язык распознавания, чтобы программа могла считать конкретный тип данных

Пользовательские эталоны

В большинстве случаев ABBYY FineReader Engine может успешно распознавать текст без предварительного обучения. Тем не менее, чтобы повысить качество распознавания декоративных и контурных шрифтов, может потребоваться обучение пользовательским эталонам.

Закажите эффективное решение задачи

Наши специалисты готовы подробно рассказать о технологиях и решениях компании ABBYY. Опишите задачи, которые вы хотите решить, и получите индивидуальное предложение с примерными сроками и ожидаемыми результатами.

Я проинформирован о том, что я имею право в любое время полностью или частично отозвать вышеуказанное согласие.

Отозвать согласие также можно на странице отмены подписки на сообщения или отправив письмо с отказом от подписки по адресу dataprotection@abbyy.com.

Я даю согласие на использование моих персональных данных для целей, описанных в правовой политике.

Спасибо за интерес к продуктам компании ABBYY!

Ваш запрос находится в обработке. Наши специалисты свяжутся с вами в самое ближайшее время.

С уважением,
команда ABBYY