Flex Gateway新着情報
Governance新着情報
Monitoring API Manager[Toxicity] Detection by Text 操作を設定します。
[Toxicity] Detection by Text 操作では、ユーザーまたは LLM による有害コンテンツを分類してスコア付けします。
[Toxicity] Detection by Text 操作を次のようなさまざまなシナリオで適用します。
有害な入力の検出
ユーザーによる有害な入力を検出してブロックし、LLM に送信しないようにします。
有害な応答の検出
ユーザーにより有害または攻撃的とみなされる可能性がある LLM 応答を除外します。
[Toxicity] Detection by Text 操作を設定する手順は、次のとおりです。
Anypoint Code Builder または Studio キャンバスで操作を選択します。
操作の [General (一般)] プロパティタブで、次の値を入力します。
Text (テキスト)
有害なコンテンツがないかを確認するテキスト。
この操作の XML を次に示します。
<ms-inference:toxicity-detection-text
doc:name="Toxicity detection text"
doc:id="b5770a5b-d3f9-47ba-acec-ab0bd41e4188"
config-ref="OpenAIConfig">
<ms-inference:text>
<![CDATA[You are fat]]>
</ms-inference:text>
</ms-inference:toxicity-detection-text>
この操作の応答には、有害検出および評価を含む JSON ペイロードが含まれます。応答の例を次に示します。
{
"payload": {
"flagged": true,
"categories": [
{
"illicit/violent": 0.0000025466403947055455,
"self-harm/instructions": 0.00023480495744356635,
"harassment": 0.9798945372458964,
"violence/graphic": 0.000005920916517463734,
"illicit": 0.000013552078562406772,
"self-harm/intent": 0.0002233150331012493,
"hate/threatening": 0.0000012029639084557005,
"sexual/minors": 0.0000024300240743279605,
"harassment/threatening": 0.0007499928075102617,
"hate": 0.00720390551996062,
"self-harm": 0.0004822186797755494,
"sexual": 0.00012644219446392274,
"violence": 0.0004960569708019355
}
]
}
}