お客様のストーリーに戻る

建設情報プロバイダCMDが、ABBYYの拡張性の高いOCRソリューション導入で、大規模な建設文書処理を効率化

Construction | Digital Archiving

お客様の概要

氏名 Construction Management Data (CMD)
本社 米国オハイオ州
業界・業種 建設業界
ウェブサイト

パートナーの概要

氏名 Conarc
ウェブサイト
チャレンジ

大規模な量の建設文書を処理できる自動化されたOCRによる、業務の効率化とデー タの質の向上。

解答

ABBYY Recognition Serverを導入するこ とで、CMDは、複雑で大きいフ ォー マッ トの企画書を含む、何百万にものぼる建設文書のキャプチャおよび変換を自動化。

結果

「我々の文書変換処理は自動化されたおかげで手作業での処理が最小化されました。」

-CMDのシニアソフ ト開発者Vic Mykulowycz氏

「ABBYYは、我々の顧客に検索可能な文書を提供すること、そして内部で文書処理を自動化することにおいて、弊社の事業のビジョンに気付かせてくれる重要な要素でした。」
-CMDデータ戦略部副社長 Dan DuBois氏

Construction Management Data社(以下CMD)は、ウェブサイト経由で数十万にも及ぶ過 去、現在、未来の建設プロジェクト情報を建設会社へ提供している北米の建設情報プロバイダです。このサー ビスを提供するにあたり、年間3,500万ペー ジもの複雑な紙文書やデジタル文書を、検索可能な企画書や仕様書に変換する必要があります。しかし、CMDの、検索可能なPDFを作成するソリュー ションは、手動の文書作成が必要で大規模な建設計画書に対応できていませんでした。その上、現在の文書を処理する仕事量が増え続ける一 方で、何年もの過去のデー タを処理して検索可能にする必要もありました。そこでCMDは、プロセスの効率化、自動化および拡張化を成し遂げる方法を模索し、ABBYY Recognition Serverに 解決策を見つけました。.

大規模な文書変換や大きなフォー マッ トの文書処理に、堅固で拡張性のあるOCRが必要

北米の建設会社は、マ ー ケッ トリサー チが必 要な時や、ビジネスになる新しいプロジェクトを探したり入札動向の情報が必要な時は、まず最初にCMDから情報を得ます。CMDのウェブサイトは、非住宅商業建設プロジェクトを主に扱っており、加入メンバ ー は膨大な検索可能なプロジェク トドキュメントを含む知識ベー スにアクセスできます。 「初期の建設計画から契約締結までプロジェクトのあらゆるステ ー ジのデー タを収集しています。」 とCMDのデータ戦略部副社長であるDan DuBois氏は説明します。「我々の調査員達は、紙やデジタ ルなど多様なフォー マッ トで情報を入手するので、知識ベー スに統合するためにOCRでそれらを検索可能なPDFに変換する必要があります。」

CMDが年間で処理する文書は膨大な量です。およそ3,500万ペー ジから成る10万以上の文書セッ トを処理しています。そして各ペー ジはテキス ト、図表、図面、絵が組 み合わさっている複雑な文書です。また、紙文書もあるので、紙の物理的容量は非常に大きくなることもあります。CMDのシニアソフト開発者のVic Mykulowycz氏は、以前使っていたOCR技術は建設 業界には不十分だったと言います。「例えば、大きなフォ ー マッ トにも対応できませんでした。我々は44 X 36インチにも及ぶ何百万もの建設計画書を処理するので、デ ー タベースから手動で情報を引き出したり準備したりする必要がありました。更に、以前のソフトウェアの精度は、処理しきれないほどの手作業での検証を必要としていました。自動化によってプロセスを合理化して手作業を最小化する必要がありました。」

大規模なOCRソリュー ションを検討

テキストと画像のどんな組み合わせであっても正確なテキスト検索ができることが、GMDの新しいOCRソリュー ションの不可欠な条件でした。これを考慮して、GMDは業界シェアの高いいくつかのソリュ ー ションの試用ライセンスを取得し、一 連の対照比較テストを行いました。 「我々は同じペー ジを各ソリュー ションで試しました。どれぐらい正確にテキス トを出力したのかや各ベ ー ジのエラー を数えながら細かく比較しました。中でもABBYYRecognition Serverは特に正確でした。スピードも優れていましたし、何より、大きなフォ ー マッ トのペー ジも処理することができました。また、処理する文書の量を考慮すると、GMDI払BBYYRecognition Serverに厳しいテストをする必要がありました。そこでOCRと文書管 理ソリュー ションの専門家として知られ、ABBYYのパー トナー でもあるGonarcに拡張ライ センスを手配してもらいました。」

「我々の文書変換処理は自動化されたおかげで手作業での処理が最小化されました。」
-CMDのシニアソフ ト開発者Vic Mykulowycz氏

ABBYY Recognition Serverの導入

Conarcのシニアソフト開発者のBenHolton氏は、 「CMDの膨大な情報量のため、通常よ りも遥かに多いペー ジに対応した試用ライセンスを手配しました。」と言います。拡張ライセンスを取得したCMDは11の物理サ ー バー にRecognition Server をインスト ー ルし稼働 させました。Mykulowycz氏は次のように述べています。「我々はソリュー ションが実際どこまでできる か、11つのサー バー を運用するコアライセンスの最適形態は何なのかを知る必要がありました。広範囲なテストを行った結果、導入時には社内ソフトウェアとABBYYソリュー ションの技術的な違いからRecognition Serverを調整する必要があるとわかりました。Conarcと ABBYYは迅速なサポートを提供してくれた上に、ABBYYは我々の問題に対処するため、特別な単発リリー スさえ作成してくれました。」

最初にCMDはRecognition Serverの72コアライセンスを購入しました。1つのサー バー で 全ての分散されたCPUを処理するというもので、結果、CMDの期待を満たしていました。しかし、その1年以内に同社は、過去に変換されていない資料からもアーカイブを作成することを決めました。Ben Holton氏は 「それをするにはかなりのリソースが必要でした。さらに 昨今の建設業界の回復を考慮すると、ゆくゆくは現在の要求を満たすためだけにそのリソースが必要だと予想されました。それは膨大なスケ ー リング (拡張)が必要なことを意味していました。」

更なる拡張: 156コアのOCRソリュー ション

Mykulowycz氏によると、新しいプロジェクトは、1.5年の過去のデー タを検索可能なPDFに 変えることが必要で、それは膨大な作業量でした。 「現在の資料の変換に加え、4,500万余りのペー ジを処理する作業負荷を考えると自動化されたOCRが必要でした。」 過去のデー タ変換を遂行するために、CMDは追加で88コアライセンスを購入し、そのプロジェク トに専念しました。ある程度までは予定通りに完了したのですが、2つの要素が浮上してきました。

Mykulowyc氏によると、建設は季節的な事業だといいます。「2月から6月が非常に忙しく、文 書処理のほとんど が発生する時期です。加えて、建設業界の景気回復も考慮しておらず、実際に必要な作業量を見積もっていなかったことを意味しました。」急速に数が増大する計画書や仕様書に対応するためCMDは1つのマスタ ー CPUに全てのコアライセンスを結合しました。出来上がったソリュ ー ションは、1つのシステムから成り、合計156 のネッ トワー ク化されたコアライセンスを複数のサーバーに割り当てています。 「1つのサー バー マネジャー に全てを結合したことは成功でした。」 とMykulowycz氏 は言います。

結果

導入から7カ月で、Recognition Serverを使ったCMDのソリュー ションは、過去の文書変換 プロジェク トを完了しました。そして今度はそのリソースをメインのシステムに移行しました。「システムは現在、更にスピー ディー に文書を処理する ようになりました。」とMykulowycz 氏は言います。「我々の文書変換処理は自動化されたおかげで手作業での処理が最 小化されました。もう1つの利点はRecognition Serverは単語の検索も簡単にできることです。テ キスト検索する際、単 語の周りを囲んだ赤いポックスが現れ、結果をハイライトしてユ ー ザー に示してくれます。」

SNSでフォロー