采样 - MCP中文文档

协议修订版：2025-03-26

模型上下文协议（MCP）为服务器提供了一种标准化的方式，通过客户端从语言模型请求 LLM 采样（“补全”或“生成”）。此流程允许客户端控制模型访问、选择和权限，同时使服务器能够利用 AI 功能——无需服务器 API 密钥。服务器可以请求基于文本、音频或图像的交互，并可选择在提示中包含来自 MCP 服务器的上下文。

用户交互模型

MCP 中的采样允许服务器实现代理行为，通过使 LLM 调用嵌套在其他 MCP 服务器功能中发生。

实现可以自由选择适合其需求的任何界面模式来暴露采样功能——协议本身不强制要求特定的用户交互模型。

为了信任、安全和保障，应该始终有一个人类参与者，能够拒绝采样请求。

应用程序应该：

提供易用且直观的界面，便于审查采样请求
允许用户在发送前查看和编辑提示
在交付前展示生成的内容供审查

能力

支持采样的客户端必须在初始化期间声明 sampling 能力：

{
  "capabilities": {
    "sampling": {}
  }
}

协议消息

创建消息

要请求语言模型生成，服务器发送 sampling/createMessage 请求：

请求：

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "sampling/createMessage",
  "params": {
    "messages": [
      {
        "role": "user",
        "content": {
          "type": "text",
          "text": "法国的首都是什么？"
        }
      }
    ],
    "modelPreferences": {
      "hints": [
        {
          "name": "claude-3-sonnet"
        }
      ],
      "intelligencePriority": 0.8,
      "speedPriority": 0.5
    },
    "systemPrompt": "你是一个有帮助的助手。",
    "maxTokens": 100
  }
}

响应：

{
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "role": "assistant",
    "content": {
      "type": "text",
      "text": "法国的首都是巴黎。"
    },
    "model": "claude-3-sonnet-20240307",
    "stopReason": "endTurn"
  }
}

消息流程

数据类型

消息

采样消息可以包含：

文本内容

{
  "type": "text",
  "text": "消息内容"
}

图像内容

{
  "type": "image",
  "data": "base64编码的图像数据",
  "mimeType": "image/jpeg"
}

音频内容

{
  "type": "audio",
  "data": "base64编码的音频数据",
  "mimeType": "audio/wav"
}

模型偏好

MCP 中的模型选择需要仔细抽象，因为服务器和客户端可能使用不同 AI 提供商的独特模型。服务器不能简单地按名称请求特定模型，因为客户端可能无法访问该确切模型，或可能更倾向于使用其他提供商的等效模型。

为解决此问题，MCP 实现了一个结合抽象能力优先级和可选模型提示的偏好系统：

能力优先级

服务器通过三个归一化的优先级值（0-1）表达其需求：

costPriority：降低成本有多重要？值越高，越倾向于选择更便宜的模型。
speedPriority：低延迟有多重要？值越高，越倾向于选择更快的模型。
intelligencePriority：高级功能有多重要？值越高，越倾向于选择能力更强的模型。

模型提示

虽然优先级有助于根据特性选择模型，hints 允许服务器建议特定的模型或模型系列：

提示被视为可以灵活匹配模型名称的子字符串
多个提示按优先级顺序评估
客户端可以将提示映射到来自不同提供商的等效模型
提示是建议性的——客户端最终决定模型选择

例如：

{
  "hints": [
    { "name": "claude-3-sonnet" }, // 优先选择 Sonnet 类模型
    { "name": "claude" } // 回退到任意 Claude 模型
  ],
  "costPriority": 0.3, // 成本不太重要
  "speedPriority": 0.8, // 速度非常重要
  "intelligencePriority": 0.5 // 中等能力需求
}

客户端根据其可用选项处理这些偏好以选择合适的模型。例如，如果客户端无法访问 Claude 模型但有 Gemini，它可能根据相似能力将 sonnet 提示映射到 gemini-1.5-pro。

错误处理

客户端应该为常见失败情况返回错误：

错误示例：

{
  "jsonrpc": "2.0",
  "id": 1,
  "error": {
    "code": -1,
    "message": "用户拒绝采样请求"
  }
}

安全考虑

客户端应该实现用户批准控制
双方应该验证消息内容
客户端应该尊重模型偏好提示
客户端应该实现速率限制
双方必须适当地处理敏感数据

2025-03-26 (Latest)

2024-11-05

资源

采样

用户交互模型

能力

协议消息

创建消息

消息流程

数据类型

消息

文本内容

图像内容

音频内容

模型偏好

能力优先级

模型提示

错误处理

安全考虑

2025-03-26 (Latest)

2024-11-05

资源

​用户交互模型

​能力

​协议消息

​创建消息

​消息流程

​数据类型

​消息

​文本内容

​图像内容

​音频内容

​模型偏好

​能力优先级

​模型提示

​错误处理

​安全考虑

用户交互模型

能力

协议消息

创建消息

消息流程

数据类型

消息

文本内容

图像内容

音频内容

模型偏好

能力优先级

模型提示

错误处理

安全考虑