Einstein AI Connector 1.2 のエンベディング操作の設定

Adhoc File Query 操作の設定

Embedding Adhoc File Query​ 操作では、ドキュメントを取得してそのクエリと共にベクトルデータベースに取り込みます。

この操作の出力には、クエリに対する最も可能性が高い回答であるドキュメントの完全なコンテンツを含む一連のスコアが含まれます。可能性スコアを作成する前にコンテンツの数値表現を識別するためにベクトルデータベースが使用されます。

  1. Anypoint Code Builder または Studio キャンバスで操作を選択します。

  2. 操作の ​[General (一般)]​ プロパティタブで、次の値を入力します。

    • Prompt (プロンプト)

      LLM に送信するプロンプトのプレーンテキスト

    • File Path (ファイルパス)

      エンベディングストアに取り込むドキュメントの完全なファイルパス。ファイルパスにアクセスできることを確認します。

      この項目では DataWeave 式を使用することもできます。次に例を示します。

      mule.home ++ "/apps/" ++ app.name ++ "/customer-service.pdf"
  3. [Additional Properties (追加プロパティ)]​ で、次の項目を選択します。

    • Model Name (モデル名)

      LLM とやり取りする API モデルの名前。

    • File type (ファイルの種類)

      • Text (テキスト)

        あらゆる種類のテキストファイル (JSON、XML、txt、CSV など)

      • PDF

        システム生成の PDF ファイル

      • CSV

        カンマ区切り値を含む CSV ファイル

      • URL

        単一の URL。

    • Option type (オプション種別)

      ベクトルデータベースに取り込む前にドキュメントを分割する方法

Generate From File 操作の設定

Embedding generate from file​ 操作では、ドキュメントを取得してベクトルデータベースに取り込みます。この操作の出力はコンテンツの数値表現です。

  1. Anypoint Code Builder または Studio キャンバスで操作を選択します。

  2. 操作の ​[General (一般)]​ プロパティタブで、次の値を入力します。

    • File Path (ファイルパス)

      エンベディングストアに取り込むドキュメントの完全なファイルパス。ファイルパスにアクセスできることを確認します。

      この項目では DataWeave 式を使用することもできます。次に例を示します。

      mule.home ++ "/apps/" ++ app.name ++ "/customer-service.pdf"
  3. [Additional Properties (追加プロパティ)]​ で、次の項目を選択します。

    • Model Name (モデル名)

      LLM とやり取りする API モデルの名前。

    • File type (ファイルの種類)

      • Text (テキスト)

        あらゆる種類のテキストファイル (JSON、XML、txt、CSV など)

      • PDF

        システム生成の PDF ファイル

      • CSV

        カンマ区切り値を含む CSV ファイル

      • URL

        単一の URL。

    • Option type (オプション種別)

      ベクトルデータベースに取り込む前にドキュメントを分割する方法

データの解析方法

ファイルからのデータは、生成されたエンベディングの形式をわずかに変更する方法で解析されます (コンテンツ自体は変更されません)。

  • ファイルコンテンツの先頭と末尾からスペースが削除されます。次に例を示します。

    解析前:

    "
    
    Para 1
    Para 2
    
    
    
    "

    解析後:

    "Para 1
    Para 2"
  • 段落間の余分な行が削除されます。次に例を示します。

    解析前:

    "
    Para 1
    
    
    Para2
    "

    解析後:

    "Para 1
    Para 2"
  • コネクタでは、生成されたエンベディングからノーブレークスペース (<0xa0>) などの文字を削除する絞り込みロジックが提供されます。このような文字を削除して、より正確なエンベディングを促進します。

文字 16 進数コード 10 進数コード 名前 説明

\u0000

0x00

0

Null (NULL)

C のような言語で文字列の末尾をマークします

\u0001

0x01

1

ヘッディング開始 (SOH)

データストリームの見出しの先頭をマークするために使用します

\u0007

0x07

7

ベル (BEL)

ビープ音やアラート音をトリガーします

\u0008

0x08

8

バックスペース (BS)

カーソルの位置を逆方向に 1 つ移動します

\u0009

0x09

9

水平タブ (TAB)

タブスペースを挿入します

\u000A

0x0A

10

改行 (LF)

新しい行に移動します (Unix の改行 (newline))

\u000D

0x0D

13

キャリッジリターン (CR)

新しい行の先頭に戻ります

\u001B

0x1B

27

エスケープ (ESC)

制御のエスケープシーケンスを導入するために使用します

\u001F

0x1F

31

ユニット分離 (US)

情報の単位を分離します

Generate From Text 操作の設定

Embedding generate from text​ 操作では、テキストを取得してベクトルデータベースに取り込みます。この操作の出力はコンテンツの数値表現です。

  1. Anypoint Code Builder または Studio キャンバスで操作を選択します。

  2. 操作の ​[General (一般)]​ プロパティタブで、次の値を入力します。

    • Text (テキスト)

      ベクトルデータベースに取り込むテキスト

  3. [Additional Properties (追加プロパティ)]​ で、次の項目を選択します。

    • Model Name (モデル名)

      LLM とやり取りする API モデルの名前