ABBYY FineReader Engine ABBYY FineReader Engine

Многофункциональный OCR SDK для разработчиков

Используйте OCR-технологии с элементами искусственного интеллекта

Классификация документов: машинное обучение и обработка естественного языка

Инструментарий ABBYY FineReader Engine включает технологию для классификации документов, что позволяет создавать приложения для автоматического распределения документов по предопределенным категориям и классам. В передовых алгоритмах классификации используются технологии машинного обучения и обработки естественного языка, которые позволяют выявить малейшие отличия между документами разных категорий и настроить гибкие процессы классификации.

Новый интеллектуальный классификатор по внешнему виду (Image Classifier) позволяет собирать и обрабатывать визуальную информацию об изображениях документов и быстро классифицировать их. Текстовый классификатор (Text Classifier) работает с текстовой информацией на документах, в том числа анализируя смысл текста, что позволяет повысить точность классификации. Классификаторы по внешнему виду и текстовый можно использовать как отдельно, так и совместно.

Как это работает?

Классификация документов проходит в три этапа:

  • 1

    Подготовка наборов документов для обучения классификации

    На этом этапе определяются классы документов. Для каждого класса подбирается несколько примеров документов для определения общих признаков.

  • 2

    Обучение классификационной модели

    Информация о классах документов и соответствующих параметрах импортируется для обучения в классификационную модель (Classification Model), которая впоследствии обучается. Модель может использовать классификаторы по внешнему виду и текстовый как отдельно, так и совместно. Эффективность работы можно улучшить за счет установления баланса между полнотой и точностью данных.

  • 3

    Классификация

    Все поступающие документы классифицируются согласно классификационной модели. Чтобы правильно классифицировать тип документа, определяются параметры для каждого документа, которые сравниваются с информацией, полученной на этапе обучения. Разработчики могут создавать правила, которые позволяют обновлять наборы данных для обучения и переобучать классификационную модель.

Технология позволяет получать информацию о том, к каким из заданных категорий может относиться документ и с какой вероятностью. Информацию о вероятности можно использовать для определения следующих шагов обработки, среди которых анализ и отправка документов по определенному пути.

В документации ABBYY FineReader Engine процесс классификации представлен примером кода, который можно использовать при создании приложений или для тестирования работы технологии.

Закажите эффективное решение задачи

Наши специалисты готовы подробно рассказать о технологиях и решениях компании ABBYY. Опишите задачи, которые вы хотите решить, и получите индивидуальное предложение с примерными сроками и ожидаемыми результатами.

Я проинформирован о том, что я имею право в любое время полностью или частично отозвать вышеуказанное согласие. Для этого нажмите на ссылку «Отписаться» внутри любого письма, полученного от ABBYY, или заполните форму Права доступа ABBYY к персональным данным.

Я даю согласие на использование моих персональных данных для целей, описанных в правовой политике.

Спасибо за интерес к продуктам компании ABBYY!

Ваш запрос находится в обработке. Наши специалисты свяжутся с вами в самое ближайшее время.

С уважением,
команда ABBYY