DataCapture

По мере развития компьютерных технологий и коммуникаций, сервисов, вроде электронной коммерции и электронного банкинга, появилась иллюзия, что необходимость работы с бумажными документами в деловой среде сойдет на нет – ведь преимущества цифрового формата очевидны. Однако традиции в этой области оказались сильнее прогресса – «твердых» копий меньше не стало. По некоторым оценкам, только в США каждый офисный служащий в среднем ежегодно использует не менее 10 тыс. листов бумаги для принтеров, что в совокупности дает порядка 4 млн тонн. Бумажные документы настолько естественны, что порой мы не замечаем даже парадоксальных ситуаций. К примеру, анкету на получение визы нередко можно заполнить и в электронном виде, но подавать в консульский отдел все равно нужно распечатку. Пока еще мы не можем избавиться от личных подписей и «мокрых» печатей, и совсем непросто состыковать законодательства разных стран, каждое из которых регламентирует распространение и применение криптографических технологий (в том числе необходимых для цифровых подписей).

Порядка 80% деловых документов – это различные формы, которые содержат данные, необходимые для функционирования бизнес-процессов, и поэтому требующие оперативного переноса в транзакционные системы (учетные, АБС/ОДБ, ERP). Многие компании до сих пор используют ручной ввод данных, хотя он не оптимален, как по надежности, так и по трудозатратам. Здесь важно учитывать человеческий фактор – люди устают, теряют концентрацию внимания, отвлекаются, ошибаются. При этом достоверность данных, особенно финансовых, зачастую не просто важна, а критична.

Альтернативный метод предполагает использование системы автоматизированного ввода данных. На практике качество данных при автоматизированном вводе оказывается значительно выше. Причины очевидны: влияние человеческого фактора сведено здесь к нулю. Основной объём работы выполняется компьютером, который не устает и не допускает опечаток. При этом системы автоматизированного ввода снабжены набором встроенных правил контроля, существенно повышающих общую надежность и качество данных.

Технологии автоматизированного ввода данных ABBYY FlexiCapture.

В последнее время в разработках технологий анализа и распознавания документов наблюдается значительный прогресс. Оптическое распознавание символов (OCR – optical character recognition) сейчас активно востребовано в организациях. OCR-система работает так: в процессе анализа она выделяет на изображении блоки (текст, таблицы, иллюстрации), затем последовательно разделяет блоки на все менее крупные объекты: абзацы, строки, слова, символы. Последние обрабатываются программными механизмами, как раз и осуществляющими распознавание. Затем распознанные символы «собираются» в слова, слова – в строки, и так далее, вплоть до синтеза полного электронного аналога исходного документа. Так функционируют OCR-системы распознавания документов, не являющиеся в полной мере системами автоматизированного ввода данных, т.к. они осуществляют только полнотекстовое распознавание. Обработанные таким образом документы, как правило, предназначены для дальнейшего редактирования и/или архивирования с целью осуществления быстрого поиска по ключевым словам.

Системы автоматизированного ввода данных нацелены, в первую очередь, на обработку форм и функционируют несколько иначе, чем системы распознавания документов. На исходном изображении выделяются области, где содержится смысловая информация, и затем именно эти фрагменты подвергаются дальнейшей обработке. Иначе говоря, система не пытается построить точную электронную модель документа, а лишь извлекает информацию из чётко ограниченных областей. В подобных случаях могут применяться не только технологии оптического распознавания печатных символов (OCR), но и технологии распознавания рукопечатного текста (ICR – intelligent character recognition) и меток (OMR – optical mark recognition). Эта информация передаётся в систему хранения.

Автоматизированное извлечение данных распространено при обработке анкет, заявлений, вопросников, избирательных бюллетеней, экзаменационных тестов и т.п. Все они относятся к фиксированному типу документов, также называемых жесткими формами. Для таких форм четко определены поля и их расположение на странице, поэтому и обработка происходит легко – достаточно создать шаблон для каждого типа и задать координаты полей для распознавания. Для точного наложения шаблона система должна опираться на элементы, которые называют реперными блоками или реперами. С их помощью программа может отслеживать линейные искажения и сдвиги изображения, а также определять расположение полей. Такие элементы называют якорями. Примерами реперных полей являются черные квадраты, углы, кресты, не исчезающие при сканировании надписи и линии.

Существуют и другие типы документов, структура которых не фиксирована: счета-фактуры, заказы на покупку, транспортные накладные, контракты, и др. Как раз они и составляют большинство –около 80% – всех деловых документов. Извлечение данных с таких документов задача нетривиальная. Дело в том, что поля на них могут быть расположены в различных местах, поэтому ещё их называют гибкими формами. Например, номер счета-фактуры от различных поставщиков может находиться в любом месте верхней части страницы. И тут не обойтись простым заданием координат.

Существует множество технологий, способных обрабатывать жесткие формы. Но для обработки гибких форм необходимы действительно мощные интеллектуальные технологии, разработка которых под силу только крупным компаниям, ведущим исследовательскую деятельность. Одной из таких компаний является ABBYY. В основе метода обработки этих форм лежит логическое исследование структуры документа. Технология, реализующая данный метод на практике, получила название ABBYY FlexiCapture. Создать эту технологию специалистам компании позволил более чем 22-летний опыт исследований ABBYY в сфере анализа и распознавания документов. ABBYY FlexiCapture получила широкое распространение в 1997 году, и на сегодняшний день уже реализована в сотнях успешных проектов.

Чтобы обеспечить разработчикам лёгкий доступ ко всем уникальным возможностям своей технологии, в ABBYY было создано специальное средство под названием ABBYY FlexiLayout Studio, которое вошло в состав продукта ABBYY FlexiCapture. Именно ABBYY FlexiLayout Studio делает возможным автоматическое создание, тестирование и настройку специальных формализованных описаний – FlexiLayout – гибких описаний. Они используются для нахождения полей и извлечения данных с гибких форм.

Технология ABBYY FlexiCapture строится на принципах целостности, целенаправленности и адаптивности (IPA – integrity, purposefulness and adaptability), имитирующих способ, с помощью которого люди узнают предметы. Те же самые принципы лежат в основе известной во всем мире технологии ABBYY FineReader для распознавания печатных и рукопечатных символов.

Технология ABBYY FlexiCapture

Допустим, вам требуется опознать счет-фактуру из стопки других документов, и затем найти основные данные на ней: номер, дату, сумму. Как вы это сделаете? Скорее всего, сначала станете искать специфические слова, например, «счет-фактура» или «сумма счета-фактуры», позволяющие опознать документ как счет-фактуру. Следующий шаг – найти поля с необходимыми данными. Основываясь на опыте или следуя общей логике, вы, вероятно, будете искать номер, дату и адрес вверху первой страницы, а сумму внизу последней страницы счета-фактуры.

Счет-фактура может содержать несколько чисел (номер клиента, номер заказа и т.д.), несколько дат (дата счета-фактуры, дата отправки и т.д.) и расположенные рядом различные цифры, – и все это важно правильно истолковать. Некоторые ключевые слова или элементы, расположенные в полях данных, могут помочь вам принять правильное решение. Но есть случаи, когда никаких ключевых слов на странице не представлено. В этой ситуации вы наверняка изучите весь документ и примете окончательное решение, основываясь на данных обо всех элементах на странице и их относительном расположении. Опираясь на принципы IPA технологии, ABBYY FlexiCapture использует тот же подход – программа не анализирует каждый объект отдельно, а учитывает связи между всеми элементами и их характеристики. Затем система определяет наиболее вероятное расположение того или иного элемента. Технология хорошо работает даже с документами низкого качества, которые не могут быть идеально распознаны механизмами OCR. Гибкий подход технологии ABBYY FlexiCapture гарантирует надёжные результаты при обработке документов с очень сложной структурой или сильно переменным расположением полей.

Принципы IPA – целостность, целенаправленность, адаптивность

Как говорилось выше, технологии распознавания ABBYY основаны на принципах IPA. В отличие от других технологий, которые применяют распознавание шаблонов, IPA использует искусственный интеллект для обучения компьютера самостоятельному анализу документов тем же способом, который свойственен человеку. Следуя принципу целостности, ABBYY FlexiCapture рассматривает документ как единый объект, состоящий из многих комплексных геометрических частей, таких, как слова, строки, картинки и другие элементы. Каждый из этих элементов может быть проанализирован как объект, имеющий взаимосвязанные части. Например, составной элемент может содержать несколько основных элементов. Следуя принципу целенаправленности, ABBYY FlexiCapture, подобно человеческому мозгу, генерирует гипотезы об объектах на документе. Технология выполняет эту функцию с помощью гибкого описания FlexiLayout, являющегося подобием знаний человека о конкретных документах. Встроенная адаптивность позволяет ABBYY FlexiCapture более точно генерировать гипотезы о специфических объектах, согласно информации, собранной с других частей изображения. Дальнейшее улучшение технологии и её адаптивности позволяет автоматически создавать гибкие описания. Другими словами, систему можно обучать извлечению нужных данных путем ее тренировки на примерах изображений.

C помощью IPA удается получить высокую точность нахождения полей на гибких формах, потому что этот подход принципиально отличается от способа наложения шаблонов. Алгоритм наложения шаблонов опирается на фиксированное размещение статических объектов, таких, как строки, якоря и др. Эта информация соотносится с известными шаблонами, после чего определяется наиболее подходящий из имеющихся. Такой подход исключает способ объяснения системе всех возможных вариантов расположения поля. Для этого пришлось бы разрабатывать отдельный шаблон для каждой возможной вариации. Очевидно, что такой подход окажется дорогим и трудоемким в разработке и поддержке.

Структура гибкого описания FlexiLayout

Гибкое описание содержит алгоритмы поиска областей изображения, которые соответствуют полям данных – блокам в терминах FlexiLayout Studio. Для поиска этих блоков используются всевозможные элементы, расположенные на странице. Элемент в свою очередь описывает объект изображения, который может быть обнаружен на документе. Отличительными характеристиками каждого элемента являются: тип объекта, его геометрические особенности, его вероятное местоположение и отношения с другими элементами. Эти свойства позволяют программному обеспечению определить область поиска элемента. Как только сам элемент обнаруживается в этом регионе, можно определять местоположение блока и извлекать данные. Один блок может быть описан несколькими элементами, т.е. он может содержать данные из нескольких элементов или их комбинации. Описание алгоритма для нахождения блоков является конечной целью создания FlexiLayout.

Заключение

Уникальность технологий ABBYY не ограничивается способностью извлекать данные с гибких форм. Универсальность ABBYY FlexiCapture позволяет применять ее для решения самых различных задач обработки многих типов документов в одном потоке. Полный процесс автоматизированного ввода данных состоит из таких этапов как: импорт документов, их классификация, извлечение данных, проверка неуверенно распознанных данных (верификация) и экспорта. На каждом из этих этапов ABBYY применяет свои лучшие разработки ПО. В следующих статьях мы познакомимся с ними более подробно.