Все публикации

Открываем историю Большого. Часть вторая и итоги проекта

Сегодня исполняется 95 лет со дня рождения знаменитой балерины, балетмейстера и педагога Майи Плисецкой (1925 – 2015).  Почти полвека она танцевала на сцене Большого театра. Как узнать больше о том, в каких спектаклях выступала легендарная артистка, сколько раз выходила на сцену, какие роли ее прославили? Собрать интересные факты о ней и других талантливых исполнителях главного театра страны, а также ценную статистику о представлениях помог масштабный краудсорсинговый проект «Открой историю Большого». Сегодня самое время напомнить о нем и рассказать о том, как благодаря интеллектуальным технологиям и участию волонтеров ценная информация из программ и афиш становится доступной каждому.

О том, почему Большой театр и компания ABBYY с участием «КАМИС» начали заниматься этим проектом и что сделали на первом этапе, мы уже делали отдельный пост. Теперь поделимся интересными техническими подробностями о втором и третьем этапах проекта.

После первой части проекта мы благодаря ABBYY FineReader PDF и с помощью волонтеров подготовили файлы 170 000 страниц программ и афиш в формате PDF с вычитанным текстовым слоем и передали их музею Большого театра. Все данные хранятся в электронном виде, и сотрудники используют их, чтобы искать и копировать нужную информацию. Это быстрее и удобнее, чем перебирать документы в шкафах и перепечатывать текст из оригиналов.

Чтобы извлечь из оцифрованных программ и афиш необходимые сведения и заполнить поля базы данных, мы в июне 2017 года начали второй этап проекта. К этому моменту все PDF-файлы с текстовым слоем, изображения программ и афиш в формате JPEG и документы MS Word c вычитанным текстом мы разместили в файловом хранилище размером 1,5 терабайт. Сервис загрузки данных анализировал базу с документами (PDF, JPEG и MS Word), а затем через наш веб-API загружал PDF по очереди в файловое хранилище станции верификации ABBYY FlexiCapture (FC).

После загрузки программ и афиш в ABBYY FlexiCapture начиналась одна из самых ответственных частей проекта. Технологии Natural Language Processing (NLP), разработанные в ABBYY, автоматически определяли, о каких участниках представления идет речь, какие роли исполнял каждый из них, на каком музыкальном инструменте играл и т.п. Затем технология самостоятельно вносила эту информацию в поля онлайн-формы. 

Читайте продолжение поста на Хабре. Вы узнаете:

  • Зачем и как волонтеры проверяли и дополняли информацию, извлеченную искусственным интеллектом из исторических документов?
  • Как происходили экспорт и бэкап ценных данных?
  • Сколько волонтеров участвовало в проекте и какие призы получили самые активных из них?
  • Как сейчас создается электронный архив музея Большого театра?
  • Какую итоговую статистику об операх, балетах, артистах и других участниках спектаклей удалось собрать в результате проекта?
Intelligent Capture/Content Intelligence
Подписка на обновления в блоге

Вы будете получать статьи на почту первыми

Ваша подписка прошла успешно! Пожалуйста, проверьте ваш почтовый ящик и подтвердите подписку. Если вы не видите письмо в течение нескольких минут, проверьте папку со спамом и нежелательной почтой.

Я проинформирован о том, что я имею право в любое время полностью или частично отозвать вышеуказанное согласие. Данное согласие на обработку персональных данных может быть отозвано в любой момент. Для этого нажмите на ссылку «Отписаться» внутри любого письма, полученного от ABBYY, или заполнив форму Права доступа ABBYY к персональным данным.

Я даю согласие на использование моих персональных данных для целей, описанных в правовой политике.

Ваша подписка прошла успешно!

Пожалуйста, проверьте ваш почтовый ящик и подтвердите подписку. Если вы не видите письмо в течение нескольких минут, проверьте папку со спамом и нежелательной почтой.

Читайте нас