Text Recognition (OCR)

AI OCR (file-based)

AI OCR (file-based)​ アクションステップは、既存の OCR アクションステップをさらに発展させたものです。他の OCR アクションステップとは対照的に、これはニューラルネットワークの概念に基づきます。使用可能な言語は、関連言語の特性を考慮したトレーニング済みのパターンに基づきます。このため、多くの場合、たとえば、ほとんど読めない、コントラストが低い、まれなフォントを使用しているテキストがこのアクションステップで正しく認識されるようになります。

AI OCR (file-based)​ アクションステップを使用して、ドキュメントスキャンなどの既存の画像を認識できます。

このアクションステップの基礎は画像ファイルです。これは、BMP、JPEG、PNG、TIFF などの通常のグラフィック形式で使用できます。

複数の言語を一度に認識する場合や、独自の辞書を使用する場合は、Intelligent OCR 2020 アクションステップを考慮する必要があります。

プロパティ

OCR Image Preprocessing (OCR 画像事前処理)

  1. Force Black Background (黒の背景を適用)​ スクリーンショットの色を反転します。これは、背景が黒でテキストが白の場合に特に推奨されます。

  2. Scaling factor (倍率)​ ウィザードで選択された拡大画像が表示されます。

  3. Remove Shadows (影を削除)​ 均一でない影が画像にある場合、このオプションを使用して影を削除できます。

  4. Noise Filter (ノイズフィルター)​ 画像に乱れた画素 (画像ノイズ) がある場合、このオプションを使用して抑制することができます。

  5. Enhance Contrast (コントラストを強調)​ 画像のコントラストが低く、その結果非常に淡い色になっている場合、このオプションを使用してコントラストを上げることができます。

  6. Color Depth (色深度)​ 画像のデジタル化は、ラスタライズと量子化の 2 つのステップで構成されます。ラスタライズとは、画像を細かく分割することをいいます。元のドットが画素になります。スキャンされたテンプレートの場合、スキャナーの解像度が低いために、元のドットの一部は変換されません。解像度が低下します。 量子化では、画素に割り当てられる値が決まります。白と黒のみを区別する場合、二値画像が得られます。各画素は 1 ビットとして保存されます。1 ビット色深度といいます。通常、画像の解像度 (または色深度) は 8 ビットです。明るさに複数のレベルがある場合、グレースケール値を参照します。1 ビットとは異なる他の各値によって、画像のグレースケール値が低下します。 これにより、乱れた画像アーティファクトが削除される可能性があり、OCR の処理が簡略化されます。3 または 4 の値をお勧めします。

Bypass processing pipeline (パイプラインの処理をバイパス)​ このオプションを使用すると、画像処理を完全に非アクティブ化できます。ウィザードで行った設定は考慮されません。

OCR 設定

Area mode (領域モード)​ [Scan Area (スキャン領域)] で検索領域を定義するとすぐに表示されます。次のいずれかを選択できます。

  • Actual Pixels (実際の画素数)​ 画像が元の解像度で使用されます。

  • Fit to DIN A4 (DIN A4 に合わせる)​ DIN A4 シートのアスペクト比に対応するまで元の画像の高さと幅が拡大されます。高さが調整されたか幅が調整されたかに応じて、増大される領域が生じます。 画像の元の解像度は変わりません。

  • Fit to DIN A3 (DIN A3 に合わせる)​ DIN A4 の場合と同様に動作します。DIN A4 と A5 のアスペクト比は同じため、現在違いはありません。ただし、今後、新しいアルゴリズムでサイズを考慮することが必要になる可能性があります。このため、この選択肢が使用できるようになりました。

Image file name (画像ファイル名)*​ 画像ファイルの名前。

Image folder path (画像フォルダーパス)*​ 画像ファイルが配置されているフォルダーへのパス。

Orientation (方向)​ [Area mode (領域モード)] で ​[Fit to A4 (A4 に合わせる)]​ または ​[Fit to A3 (A3 に合わせる)]​ を選択した場合、形式を選択できます。

  • 自動

  • Landscape (横)

  • Portrait (縦)

インバウンド変数

Image file name (画像ファイル名)*​ 画像ファイルの名前。

Image folder path (画像フォルダーパス)*​ 画像ファイルが配置されているフォルダーへのパス。

アウトバウンド変数

IsSucceeded​ (Boolean (ブール)) テキスト認識が正常に実行されたかどうかを示します。

ウィザード

[OCR Image Preprocessing (OCR 画像事前処理)]​ を使用して、OCR 操作を最適に実行できるように画像の品質を向上することができます。これは常に指定された順序で実行されます。ここでは、個々のステップをオンまたはオフに切り替えることもできます。

[Load design-time file (設計時のファイルを読み込む)]​ をクリックすると、Windows Explorer が開き、サンプルファイルを選択できます。​[Test (テスト)] ボタン​を使用してテスト実行を開始できます。ローカルワークフロー実行や後続の生産性プロセス実行では、ディレクトリパスとファイル名が正しく入力されている必要があります。この場合、テスト実行で選択されたサンプル画像は考慮されなくなります。

[Directory path (ディレクトリパス)] で、作成する新しいファイルへのパスを定義します。 絶対パスまたは ​[Base Path (ベースパス)]​ を基準とする相対パスを作成できます。 既存のパスを選択します。 パスを作成するには、ワークフローから変数を挿入することもできます。

詳細は、​プロパティ​を参照してください。