帳票処理ソリューション – 複数ページにわたる複雑な表やレイアウトを持つ帳票でもOCRし、データ抽出して自由に出力できる
8月5日, 2020
今回から始まる「帳票処理ソリューション」シリーズでは、ABBYY FlexiCaptureの強みを書いていく予定です。第一回の今回は、よくソリューションが無いと勘違いされそうな、複雑な帳票、書類におけるソリューションの話となります。「複雑な帳票、書類」とは具体的には以下のようなものです。
- 複雑な行で構成される表・明細行を持つ表、一定のパターン・法則が繰り返される帳票
- 複雑な帳票・表、レイアウトで、例えば、表が複数ページに渡っているもの
- ページ間で表の1行・1レコード・1パターンのデータがまたがってしまっている帳票
- 罫線が無い、行や列が分かりにくい帳票
- 左から右、または、右から左などの横方向の読み取りが必要な帳票
- 上記の組み合わせのような複雑な帳票
このように複雑なものであっても、各読み取り箇所を適格に認識し、OCRを行えます。読み取った文字の出力形式、出力のレイアウトも扱いやすいように出力できます。
複雑な行で構成される表・明細行を持つ表、一定のパターン・法則が繰り返される帳票
表の行が単純な格子状になっていない2、3...複数段の複雑な形式の行でも、簡単に読み取ります。
上図の典型的なCSV出力イメージのひとつ:
ProductCode,Maker,Remarks,ProductName,UnitPrice,Qty,Unit,Amount |
---|
SHOHIN-001,ダミー株式会社,架空の商品001,Kaku-Special001,100,1,個,100 |
SHOHIN-002,ダミー株式会社,架空の商品002,Kaku-Special002,200,2,個,400 |
SHOHIN-003,ダミー株式会社,架空の商品003,Kaku-Special003,300,3,個,900 |
複雑な帳票・表、レイアウトで、例えば、表が複数ページに渡っているもの
上図のような複雑な行の帳票が複数ページで構成されていて、フォーマットも最初と最後のページで異なっていたとしても、各行・レコードの適格な認識はもちろん、OCRした文字を上図のCSVのように、連続行として1つの出力先に出力することができます(分けることもできます)。
ページ間で表の1行・1レコード・1パターンのデータがまたがってしまっている帳票
以下のような、ページまたぎの行、レコードでも問題なく認識して、OCRできます。
罫線が無い、行や列が分かりにくい帳票
明細部に罫線が無くても、行や繰り返しの法則性・パターンが分かる帳票ならば…
下図の線で区切ったように読み取ることも、このような帳票がたとえ複数ページ続いたとしても、行を帳票の印刷された意図通りに認識し、OCRする事が出来ます。
下記の例のように、罫線が全くなくても、表の部分を下図の線で区切ったように認識し、OCRする事が可能です。もちろん複数ページの読み取りでも、途中に異なるフォーマットの帳票があっても大丈夫です。
左から右、または、右から左などの横方向の読み取りが必要な帳票
表を 左から右へ、列を行のように扱って、読み取るOCRも、
右から左へ 列を行のようなパターンとみなして読むOCRも可能です。
また、このような横方向でも、複雑な列(行) やパターンの繰り返しも読み取ることができます。
あらゆる種類、どんなレイアウト、どんな複雑な帳票が複数ページで構成されていても大丈夫
どんな複雑な帳票でも、人間が読めるのなら、繰り返されるパターンや法則性があります。
罫線が一切無くても、特定のパターンや法則が繰り返されるのであれば、下図のような複雑で、複数ページに渡る帳票でも、各ブロックの表の明細行のみを認識してOCRして、まとめて出力することも、それぞれの表のブロックを別々に認識して、OCRを行い、出力することも可能です。
帳票に同じ管理番号: 請求書番号、注文番号、お客様番号…などがある場合、そのOCR結果を元に文書をまとめ、他のOCR結果の内容と出力もまとめることができます。
各帳票のフォーマットが異なっていても、問題ありません。
その他にも FlexiCapture だけで、全ての電子自動処理が完結できる程の多くの機能を備えています。それは次回以降ご紹介いたします。
あらゆる種類、どんなレイアウト、複数ページで成る帳票を扱うことができます。
今回ご紹介しました、帳票処理ソリューションABBYY FlexiCaptureについての概要、デモの依頼、お問い合わせはこちらから承ります。