変換操作の設定

[Transform] Parse document および [Transform] Chunk text 操作を設定します。

Transform Parse Document 操作の設定

[Transform] Parse document 操作では、未加工のバイナリコンテンツまたは Base64 でエンコードされたコンテンツからドキュメントを解析します。

[Transform] Parse document 操作を設定する手順は、次のとおりです。

Anypoint Code Builder または Studio キャンバスで操作を選択します。
操作の [General (一般)] プロパティタブで、次の値を入力します。
- Document binary (ドキュメントバイナリ)
  
  解析するドキュメントの未加工のバイナリコンテンツまたは Base64 でエンコードされたコンテンツを入力します。
- Document parser (ドキュメントパーサー)
  
  使用するドキュメントパーサーを入力します。

この操作の XML を次に示します。

<ms-vectors:transform-parse-document
  doc:name="[Transform] Parse document"
  doc:id="a1b2c3d4-e5f6-7890-abcd-ef1234567890"
  config-ref="MuleSoft_Vectors_Connector_Document_config"
  documentBinary="<![CDATA[#[payload.documentPath]]]>"
  documentParser="text">
</ms-vectors:transform-parse-document>

出力設定

この操作の応答には JSON ペイロードが含まれます。応答の例を次に示します。

{
    "text": "In the modern world, technological advancements have become essential for businesses to remain competitive. E-commerce giants have redefined the retail landscape through innovative use of technology and data analytics.",
    "metadata": {
        "title": "Technology in Business",
        "author": "John Smith",
        "creationDate": "2024-01-15T10:30:00Z",
        "pageCount": 5,
        "wordCount": 1247,
        "fileSize": 245760,
        "documentType": "PDF"
    },
    "extractedAt": "2024-01-20T14:25:30Z",
    "success": true
}

text: ドキュメントから抽出された完全なテキストコンテンツ。
metadata: ドキュメントプロパティと情報。
- title: ドキュメントタイトル (使用可能な場合)。
- author: ドキュメント作成者 (使用可能な場合)。
- creationDate: ドキュメント作成タイムスタンプ。
- pageCount: ドキュメントのページ数。
- wordCount: 抽出されたテキスト内の総単語数。
- fileSize: 元のファイルサイズ (バイト)。
- documentType: 検出または指定されたドキュメント形式。
extractedAt: 解析操作が完了したタイムスタンプ。
success: 解析が正常に完了したかどうかを示すブール値。

Transform Chunk Text 操作の設定

[Transform] Chunk text 操作では、指定されたテキストをセグメンテーションパラメーターに基づいて複数のセグメントにチャンク化します。この操作では、セグメンテーションパラメーターで指定された最大セグメントサイズと重複サイズに従って、入力テキストをより小さいセグメントに分割します。結果は、チャンク化されたテキストセグメントと関連付けられたメタデータが含まれる JSON ドキュメントとして返されます。

[Transform] Chunk text 操作を設定する手順は、次のとおりです。

Anypoint Code Builder または Studio キャンバスで操作を選択します。
操作の [General (一般)] プロパティタブで、次の値を入力します。
- Text (テキスト)
  
  チャンク化するテキストコンテンツを入力します。
- Max Segment Size (Characters) (最大セグメントサイズ (文字数))
  
  セグメントの最大サイズ (文字数) を入力します。
- Max Overlap Size (Characters) (最大重複サイズ (文字数))
  
  セグメント間の最大重複 (文字数) を入力します。

この操作の XML を次に示します。

<ms-vectors:transform-chunk-text
  doc:name="[Transform] Chunk text"
  doc:id="b2c3d4e5-f6g7-8901-bcde-f23456789012"
  config-ref="MuleSoft_Vectors_Connector_Document_config"
  text="In the modern world, technological advancements have become essential for businesses to remain competitive. E-commerce giants have redefined the retail landscape through innovative use of technology and data analytics."
  maxSegmentSize="1000"
  maxOverlapSize="100">
</ms-vectors:transform-chunk-text>

出力設定

この操作の応答には JSON ペイロードが含まれます。応答の例を次に示します。

{
  "chunks": [
    {
      "index": 0,
      "text": "In the modern world, technological advancements have become essential for businesses to remain competitive.",
      "startPosition": 0,
      "endPosition": 198,
      "characterCount": 198
    }
  ],
  "totalChunks": 1,
  "originalLength": 1247,
  "avgChunkSize": 1247,
  "processingTime": "0.125s"
}

chunks: 元のテキストから作成されたテキストセグメントのリスト。
- index: 0 から始まるチャンクの連続番号。
- text: チャンクの実際のテキストコンテンツ。
- startPosition: 元のテキスト内でこのチャンクが開始される文字位置。
- endPosition: 元のテキスト内でこのチャンクが終了する文字位置。
- characterCount: この特定のチャンク内の文字数。
totalChunks: 作成されたチャンクの総数。
originalLength: 元の入力テキストの文字数。
avgChunkSize: すべてのチャンクの平均文字数。
processingTime: チャンク操作の完了にかかった時間。

変換操作の設定

Transform Parse Document 操作の設定

出力設定

Transform Chunk Text 操作の設定

出力設定

関連情報