Flex Gateway新着情報
Governance新着情報
Monitoring API Manager[Transform] Parse document および [Transform] Chunk text 操作を設定します。
[Transform] Parse document 操作では、未加工のバイナリコンテンツまたは Base64 でエンコードされたコンテンツからドキュメントを解析します。
[Transform] Parse document 操作を設定する手順は、次のとおりです。
Anypoint Code Builder または Studio キャンバスで操作を選択します。
操作の [General (一般)] プロパティタブで、次の値を入力します。
Document binary (ドキュメントバイナリ)
解析するドキュメントの未加工のバイナリコンテンツまたは Base64 でエンコードされたコンテンツを入力します。
Document parser (ドキュメントパーサー)
使用するドキュメントパーサーを入力します。
この操作の XML を次に示します。
<ms-vectors:transform-parse-document
doc:name="[Transform] Parse document"
doc:id="a1b2c3d4-e5f6-7890-abcd-ef1234567890"
config-ref="MuleSoft_Vectors_Connector_Document_config"
documentBinary="<![CDATA[#[payload.documentPath]]]>"
documentParser="text">
</ms-vectors:transform-parse-document>
この操作の応答には JSON ペイロードが含まれます。応答の例を次に示します。
{
"text": "In the modern world, technological advancements have become essential for businesses to remain competitive. E-commerce giants have redefined the retail landscape through innovative use of technology and data analytics.",
"metadata": {
"title": "Technology in Business",
"author": "John Smith",
"creationDate": "2024-01-15T10:30:00Z",
"pageCount": 5,
"wordCount": 1247,
"fileSize": 245760,
"documentType": "PDF"
},
"extractedAt": "2024-01-20T14:25:30Z",
"success": true
}
text: ドキュメントから抽出された完全なテキストコンテンツ。
metadata: ドキュメントプロパティと情報。
title: ドキュメントタイトル (使用可能な場合)。
author: ドキュメント作成者 (使用可能な場合)。
creationDate: ドキュメント作成タイムスタンプ。
pageCount: ドキュメントのページ数。
wordCount: 抽出されたテキスト内の総単語数。
fileSize: 元のファイルサイズ (バイト)。
documentType: 検出または指定されたドキュメント形式。
extractedAt: 解析操作が完了したタイムスタンプ。
success: 解析が正常に完了したかどうかを示すブール値。
[Transform] Chunk text 操作では、指定されたテキストをセグメンテーションパラメーターに基づいて複数のセグメントにチャンク化します。この操作では、セグメンテーションパラメーターで指定された最大セグメントサイズと重複サイズに従って、入力テキストをより小さいセグメントに分割します。結果は、チャンク化されたテキストセグメントと関連付けられたメタデータが含まれる JSON ドキュメントとして返されます。
[Transform] Chunk text 操作を設定する手順は、次のとおりです。
Anypoint Code Builder または Studio キャンバスで操作を選択します。
操作の [General (一般)] プロパティタブで、次の値を入力します。
Text (テキスト)
チャンク化するテキストコンテンツを入力します。
Max Segment Size (Characters) (最大セグメントサイズ (文字数))
セグメントの最大サイズ (文字数) を入力します。
Max Overlap Size (Characters) (最大重複サイズ (文字数))
セグメント間の最大重複 (文字数) を入力します。
この操作の XML を次に示します。
<ms-vectors:transform-chunk-text
doc:name="[Transform] Chunk text"
doc:id="b2c3d4e5-f6g7-8901-bcde-f23456789012"
config-ref="MuleSoft_Vectors_Connector_Document_config"
text="In the modern world, technological advancements have become essential for businesses to remain competitive. E-commerce giants have redefined the retail landscape through innovative use of technology and data analytics."
maxSegmentSize="1000"
maxOverlapSize="100">
</ms-vectors:transform-chunk-text>
この操作の応答には JSON ペイロードが含まれます。応答の例を次に示します。
{
"chunks": [
{
"index": 0,
"text": "In the modern world, technological advancements have become essential for businesses to remain competitive.",
"startPosition": 0,
"endPosition": 198,
"characterCount": 198
}
],
"totalChunks": 1,
"originalLength": 1247,
"avgChunkSize": 1247,
"processingTime": "0.125s"
}
chunks: 元のテキストから作成されたテキストセグメントのリスト。
index: 0 から始まるチャンクの連続番号。
text: チャンクの実際のテキストコンテンツ。
startPosition: 元のテキスト内でこのチャンクが開始される文字位置。
endPosition: 元のテキスト内でこのチャンクが終了する文字位置。
characterCount: この特定のチャンク内の文字数。
totalChunks: 作成されたチャンクの総数。
originalLength: 元の入力テキストの文字数。
avgChunkSize: すべてのチャンクの平均文字数。
processingTime: チャンク操作の完了にかかった時間。