AI-OCRを使ったドキュメント理解とは？

本ブログは、UiPath米国本社が発表したブログを翻訳したものです。

トニー・ツェン（Tony Tzeng）は、UiPath米国本社でドキュメントの理解における製品開発を主導しています。

変化するデジタル時代で生き抜くには、ドキュメントデータを迅速かつ正確に処理することが不可欠です。今日の企業にとっての成功はドキュメントデータを簡単に見つけ出し、アクセスし、理解する能力にかかっているといっても過言ではありません。ドキュメント処理は、規模、業界、専門分野を問わず、あらゆる企業の生産性に影響を与えるビジネスに不可欠なユースケースなのです。

このブログでは、ドキュメント処理の進化について解説します。まず、デジタル化と従来の光学文字認識（OCR）の説明から始めます。次に、企業が人工知能（AI）を活用したドキュメント認識を使用してOCRを拡張したAI-OCRにより、ドキュメントの理解機能を強化することで、その価値を高める方法について説明します。

それでは始めましょう。

フェーズ1：OCRを使用して紙のオフラインデータをオンラインデータに変換する

従来型のドキュメント処理作業は苦痛を伴いました。いまだに多くの企業は、デジタル化されていないドキュメント処理で発生する、ラベル付けのミスや手動によるデータ抽出の時間損失などの課題に直面しています。

そこで、企業はこのような課題に立ち向かう手段としてデジタル化に注目するようになりました。2019年にM-Files社が実施した調査によると、回答者の41％が紙の文書を電子フォームに置き換えることに注力する予定と答えています。また、回答者の70％が、ドキュメント処理をボーンデジタルドキュメントへとさらに拡大する予定と答えており、2018年の39％から増加しています。

ドキュメント処理を専門とする企業は、デジタル化を推進し、物理的なドキュメントをデジタル形式に変換しています。このプロセスの中核となるのがOCRです。OCR テクノロジーは、物理的な素材や画像内にあるテキストを認識します。そのうえで、それらのテキストをPDFなどのデジタルファイルに変換します。

OCRを使用したソリューションは、ドキュメント処理に関わる問題を緩和するためには欠かすことができません。しかし、従来のOCRテクノロジーにはおのずと限界があります。

フェーズ2：オンラインデータを超えて「インテリジェントOCR（AI-OCR）へ」

ここで、ドキュメントを撮影するかスキャンして、目的のシステムに取り込む場面を考えてみましょう。今日では、データの分類と抽出の能力はスキャンした画像の品質に依存しています。このことが、OCRを使用したドキュメント処理ソリューションにとって極めて重要なのはなぜでしょうか？

OCRソリューションは、処理する対象のドキュメントの品質の範囲でのみ効果的なのです。もしOCRソフトウェアが「3」と「8」、あるいは「O」と「D」などの文字を区別できなければ大問題になります。OCR テクノロジーがドキュメントの品質や元の形による微妙な差異を分析できない場合には、本来OCR ソフトウェアを使用することで避けたかったエラーそのものが新たな頭痛の種になってしまいます。

ここでAIを活用したドキュメント認識（AI-OCR）の出番が来るのです。

AIの能力が進化するに伴い、企業はOCRに適用するための機械学習（ML）モデルの作成とトレーニングを開始しています。当社がインテリジェントOCRと呼んでいるモデルベースのOCR エンジンは、エラーを低減しながら、大規模レベルでドキュメントとテキストのデジタル化を大幅に改善することができます。

インテリジェントOCR（AI-OCR）は、手書き文字、チェックボックス、取り消し線などを含む、従来のOCR システムで課題とされていたドキュメントや画像のデジタル化を支えます。

私たちは、AIによってOCRを拡張すると何が可能になるか模索し始めたばかりです。次に、デジタル化とドキュメント処理に対して、モデルベースのソリューションを適用することで実現する可能性と成果の一部を見ていきましょう。

フェーズ3：AIを使用してデータ抽出とドキュメント分類を改善する

ドキュメントをデジタル形式に変換することは、ドキュメント自体から価値を引き出すための数多くあるステップの第一歩です。一旦デジタル化されると、OCRソフトウェアは、対象ドキュメントの種類と関連事項を理解する必要があります。

従来のOCRソフトウェアを使用している企業は、ドキュメントの分類に対する取り組みを拡大するのに苦労しています。従来のOCRエンジンは、ヘッダー識別などの単純なアプローチを使用してドキュメントの種類を分類していますが、このような手法ではドキュメントを詳細なレベルで分類するには限界があります。

一旦、従来のOCRソリューションを使用してドキュメントを分類すると、多くの場合、企業はドキュメントテンプレート、または抽出する関連フィールドの指定に用いるデジタル化テキストの事前定義済み「レシピ」、およびドキュメント内のそのフィールドを見つける「ルール」に限定されてしまいます。データ内の繰り返しパターン、ドキュメント内の位置、またはロゴなど、ドキュメント内で見つけやすいものに対する相対的な位置に基づいてルールを作成できます。一方で、テンプレートは出発点としては一般的ですが、あくまで静的なものになります。

企業のドキュメント処理への取り組みが拡大するにつれて、導入初期には無縁だった、ドキュメントバリアントに対処するためのテンプレート管理と新しいテンプレートの作成に費用をつぎ込むことになります。

ドキュメントの分類とデータ抽出にAI-OCRを活用すると、この流れが変わりプロセスが容易になります。

データをデジタル形式にすると、トレーニング済みのモデルを使用してドキュメントをより詳細に調べ、ドキュメントの種類を分類し、構造化された方法で関連情報を抽出することができます。

モデルベースのOCRソリューションは、ドキュメントの種類を識別し、業務で使用される既知のドキュメントの種類と照合できます。また、非構造化ドキュメントのテキストブロックを解析し理解することも可能です。一旦ソリューションがドキュメント自体を詳しく認識すると、その目的と意義に基づいて関連情報の抽出を開始し、ドキュメントの変更やバリアントを処理することが可能になります。

テンプレートを作成するのではなく、必要なフィールド（ドキュメントの分類データ）を定義してから、これらのフィールドの検索方法を機械学習（ML）モデルに学習させます。その後、このモデルは受取ったドキュメントに基づいて自分自身を調整し、処理されたドキュメントの人間による検証から学習することができます。

これらの機能により、ドキュメント処理ソリューションのフレキシビリティとスケーラビリティが向上します。また、この出力は、データ自体の活用方法において新しい扉を開くことになります。

フェーズ4：AIを使用して新たな知見を獲得しアクションを強化する

ドキュメントの分類とデータ抽出にAI-OCRを使用することは、自動化された正確なドキュメント処理機能により組織を強化する過程において大きな一歩を踏み出したことになります。長期的な観点からすると、AI 機能を利用して抽出したテキストをさらに活用するためのロードマップを策定することをお勧めします。

AIを使用すると、複数のドキュメントにまたがるデータや、さまざまなバックエンドシステムからのデータを参照してエラーを検証できます。たとえば、請求書の金額が間違っているがOCR プロセスのエラーではなかったとします。問題の根本原因を見つけるためにロボットを組み合わせることで、多くのドキュメントの種類とシステム間からデータを抽出します。これにより、データをクロスチェックし、OCR プロセス自体のドメインの外側で主に発生する例外とエラーを明らかにすることができます。

また、時間の経過とともに履歴コンテキストを使用してデータセットにAI 機能を適用し、予測を行い、不正の可能性がある潜在的な異常を特定することもできます。ここで保険金請求処理の例（英文ブログ）を見てみましょう。最初のステップで、受け付けた請求書をデジタル化します。次に、請求書から関連情報（請求日、種類、金額）を抽出します。さらに、これらのデータポイントを確認し、機械学習（ML）モデルを使用することで、病気の再発や疑わしい金額などの変数によって不正の可能性がある請求書を特定できます。

AI-OCRは、これらの種類のタスクを実行可能にします。

AI-OCRのドキュメント処理の恩恵に向けて次のステップに進む

ドキュメント処理に頭を痛める必要はありません。OCRから始めて、AIによってOCRを拡張する（AI-OCR）と、業務プロセスの一部を成すドキュメント処理がより価値のあるものになり、味気なさから解放されるのです。

UiPathは、クライアントがAI技術を使用してプロセスを簡素化し、日常業務を容易にするための支援をすることに情熱を傾けています。

ドキュメント処理のプラクティスを簡素化し、強化して、AI-OCRによりドキュメントの理解を最適化するためにUiPath RPAを活用する方法を詳しくお知りになりませんか？UiPath x AI Lab Japanにお越しください。

著者について：ツェンは以前、Microsoft社でプロダクトリーダーを務め、カスタマーサービス仮想エージェント製品を開発しました。ウォートン・スクールとスタンフォード大学で学位を取得しています。

AI-OCRを使ったドキュメント理解とは？

AI-OCRを使ったドキュメント理解とは？

フェーズ1：OCRを使用して紙のオフラインデータをオンラインデータに変換する

フェーズ2：オンラインデータを超えて「インテリジェントOCR（AI-OCR）へ」

フェーズ3：AIを使用してデータ抽出とドキュメント分類を改善する

フェーズ4：AIを使用して新たな知見を獲得しアクションを強化する

AI-OCRのドキュメント処理の恩恵に向けて次のステップに進む

Hide Sidebar

Hide Sidebar

AI-OCRを使ったドキュメント理解とは？

AI-OCRを使ったドキュメント理解とは？

フェーズ1：OCRを使用して紙のオフラインデータをオンライン データに変換する

フェーズ2：オンラインデータを超えて「インテリジェントOCR（AI-OCR）へ」

フェーズ3：AIを使用してデータ抽出とドキュメント分類を改善する

フェーズ4：AIを使用して新たな知見を獲得しアクションを強化する

AI-OCRのドキュメント処理の恩恵に向けて次のステップに進む

Hide Sidebar

Most Read Posts

Hide Sidebar

フェーズ1：OCRを使用して紙のオフラインデータをオンラインデータに変換する