vision-mcp

给纯文本大模型加上视觉能力的 MCP Server。通过调用多模态 API，让 DeepSeek、GLM、Kimi 等纯文本模型也能"看懂"图片。

MCP 配置

Claude Desktop

编辑 claude_desktop_config.json：

{
  "mcpServers": {
    "@lexmin0412/vision-mcp": {
      "command": "npx",
      "args": ["-y", "@lexmin0412/vision-mcp"],
      "env": {
        "VOLC_API_KEY": "你的火山引擎API Key"
      }
    }
  }
}

OpenCode

编辑 opencode.jsonc，在 mcp 字段下添加：

{
  "mcp": {
    "vision-mcp": {
      "type": "local",
      "command": ["npx", "-y", "@lexmin0412/vision-mcp"],
      "enabled": true,
      "environment": {
        "VOLC_API_KEY": "你的火山引擎API Key"
      }
    }
  }
}

工具

`read_image`

理解图片内容并返回文字描述。

参数：

| 参数 | 必填 | 说明 | |:-----|:----:|:-----| | image | ✅ | 图片来源：本地绝对路径或 http(s) URL | | prompt | ❌ | 对图片的具体提问，默认"详细描述这张图片的内容" |

示例：

read_image image=/Users/xxx/截图.png prompt="这个报错信息是什么"
read_image image=https://example.com/chart.png prompt="描述这张图表的趋势"

环境变量

| 变量 | 必填 | 默认值 | 说明 | |:-----|:----:|:------|:------| | VOLC_API_KEY | ✅ | — | 火山引擎 API Key | | VISION_MODEL | ❌ | doubao-seed-2-0-lite-260428 | 火山引擎 ARK 模型 ID。在模型详情页找到 Model ID 字段，点击复制按钮获取 | | VISION_BASE_URL | ❌ | https://ark.cn-beijing.volces.com/api/v3/chat/completions | API 端点 | | VISION_TIMEOUT_MS | ❌ | 60000 | 请求超时（毫秒） | | VISION_MAX_DIM | ❌ | 1024 | 本地图片压缩阈值（像素） |

工作原理

你（含图片路径的文字 prompt）
  ↓
纯文本 LLM（DeepSeek / GLM / 其他）
  ↓ 遇到图片 → 调用 read_image 工具
vision-mcp MCP Server
  ↓ 本地图片 → base64 编码 + 可选压缩
  ↓ 远程图片 → 直接传 URL
多模态 API（火山引擎 Doubao）
  ↓ 返回图片文字描述
纯文本 LLM 拿到描述后继续回答你的问题

支持的提供商

目前内置火山引擎 Doubao 系列模型。架构设计上通过 providers/ 目录隔离厂商差异，欢迎提交新厂商的适配。

License

MIT

MCP Servers