帳票処理ソリューション – 複数ページにわたる複雑な表やレイアウトを持つ帳票でもOCRし、データ抽出して自由に出力できる

今回から始まる「帳票処理ソリューション」シリーズでは、ABBYY FlexiCaptureの強みを書いていく予定です。第一回の今回は、よくソリューションが無いと勘違いされそうな、複雑な帳票、書類におけるソリューションの話となります。「複雑な帳票、書類」とは具体的には以下のようなものです。

  • 複雑な行で構成される表・明細行を持つ表、一定のパターン・法則が繰り返される帳票
  • 複雑な帳票・表、レイアウトで、例えば、表が複数ページに渡っているもの
  • ページ間で表の1行・1レコード・1パターンのデータがまたがってしまっている帳票
  • 罫線が無い、行や列が分かりにくい帳票
  • 左から右、または、右から左などの横方向の読み取りが必要な帳票
  • 上記の組み合わせのような複雑な帳票

このように複雑なものであっても、各読み取り箇所を適格に認識し、OCRを行えます。読み取った文字の出力形式、出力のレイアウトも扱いやすいように出力できます。

複雑な行で構成される表・明細行を持つ表、一定のパターン・法則が繰り返される帳票

表の行が単純な格子状になっていない2、3...複数段の複雑な形式の行でも、簡単に読み取ります。

帳票処理ソリューション

上図の典型的なCSV出力イメージのひとつ:

ProductCode,Maker,Remarks,ProductName,UnitPrice,Qty,Unit,Amount
SHOHIN-001,ダミー株式会社,架空の商品001,Kaku-Special001,100,1,個,100
SHOHIN-002,ダミー株式会社,架空の商品002,Kaku-Special002,200,2,個,400

SHOHIN-003,ダミー株式会社,架空の商品003,Kaku-Special003,300,3,個,900

ProductCode,Maker,Remarks,ProductName,UnitPrice,Qty,Unit,Amount
SHOHIN-001,ダミー株式会社,架空の商品001,Kaku-Special001,100,1,個,100
SHOHIN-002,ダミー株式会社,架空の商品002,Kaku-Special002,200,2,個,400
SHOHIN-003,ダミー株式会社,架空の商品003,Kaku-Special003,300,3,個,900

複雑な帳票・表、レイアウトで、例えば、表が複数ページに渡っているもの

上図のような複雑な行の帳票が複数ページで構成されていて、フォーマットも最初と最後のページで異なっていたとしても、各行・レコードの適格な認識はもちろん、OCRした文字を上図のCSVのように、連続行として1つの出力先に出力することができます(分けることもできます)。

帳票処理ソリューション

ページ間で表の1行・1レコード・1パターンのデータがまたがってしまっている帳票

以下のような、ページまたぎの行、レコードでも問題なく認識して、OCRできます。

帳票処理ソリューション

罫線が無い、行や列が分かりにくい帳票

明細部に罫線が無くても、行や繰り返しの法則性・パターンが分かる帳票ならば…

帳票処理ソリューション

下図の線で区切ったように読み取ることも、このような帳票がたとえ複数ページ続いたとしても、行を帳票の印刷された意図通りに認識し、OCRする事が出来ます。

帳票処理ソリューション

下記の例のように、罫線が全くなくても、表の部分を下図の線で区切ったように認識し、OCRする事が可能です。もちろん複数ページの読み取りでも、途中に異なるフォーマットの帳票があっても大丈夫です。

帳票処理ソリューション

左から右、または、右から左などの横方向の読み取りが必要な帳票

表を 左から右へ、列を行のように扱って、読み取るOCRも、

帳票処理ソリューション

右から左へ 列を行のようなパターンとみなして読むOCRも可能です。

また、このような横方向でも、複雑な列(行) やパターンの繰り返しも読み取ることができます。

あらゆる種類、どんなレイアウト、どんな複雑な帳票が複数ページで構成されていても大丈夫

どんな複雑な帳票でも、人間が読めるのなら、繰り返されるパターンや法則性があります。

罫線が一切無くても、特定のパターンや法則が繰り返されるのであれば、下図のような複雑で、複数ページに渡る帳票でも、各ブロックの表の明細行のみを認識してOCRして、まとめて出力することも、それぞれの表のブロックを別々に認識して、OCRを行い、出力することも可能です。

帳票処理ソリューション

帳票処理ソリューション

帳票に同じ管理番号: 請求書番号、注文番号、お客様番号…などがある場合、そのOCR結果を元に文書をまとめ、他のOCR結果の内容と出力もまとめることができます。

各帳票のフォーマットが異なっていても、問題ありません。

帳票処理ソリューション

その他にも FlexiCapture だけで、全ての電子自動処理が完結できる程の多くの機能を備えています。それは次回以降ご紹介いたします。

あらゆる種類、どんなレイアウト、複数ページで成る帳票を扱うことができます。

帳票処理ソリューション

今回ご紹介しました、帳票処理ソリューションABBYY FlexiCaptureについての概要、デモの依頼、お問い合わせはこちらから承ります。

OCR(文字認識) コンテンツの理解 AI(人工知能)

ブログのアップデートを購読

購読登録が正常に完了しました。メールボックスにメールが届いておりますのでご確認下さい。数分待ってもメールが届かないようでしたら、迷惑メールボックスをご確認頂けますと幸いです。

私は、ABBYYから送信されるEメールに記載された配信停止リンクをクリックするか、またはABBYYデータ主体アクセス権利フォームを介していつでも同意を取り消すことができることを理解しています。

このフォームを送信することで、私はプライバシーポリシーに記載されている目的に沿って自分の個人情報が使用されることに同意します。

サブスクリプションが無事完了しました!

SNSでつながりましょう