Loading episodes…
0:00 0:00

谷歌发布WebMCP:彻底改变AI代理与网络的交互方式

00:00
BACK TO HOME

谷歌发布WebMCP:彻底改变AI代理与网络的交互方式

10xTeam January 18, 2026 2 min read

谷歌刚刚发布了一项新技术。 它将彻底改变AI代理与互联网上每个网站的交互方式。 这就是WebMCP为你带来的变革。

传统方法的困境

AI代理过去与网站互动的方式,就像一个蒙着眼睛的人在使用自动售货机。 它们依赖屏幕截图、DOM抓取和逐像素猜测。 在顺利的情况下,准确率也只有70%

但现在,谷歌和微软刚刚发布了一个W3C标准。 它能将每个网站都转变为一个结构化的AI工具。 准确率高达98%,令牌消耗减少89%

目前,当ClaudeChat GPT需要与网站互动时,它会怎么做? 要么截取屏幕截图,通过视觉模型处理,消耗数千个令牌。 要么抓取DOM,试图猜测哪个按钮对应哪个功能。

没有标准协议。 没有结构化数据。 每个代理框架都在从零开始重复发明浏览器自动化的轮子。

至于身份验证? 更是难上加难。 仅仅为了点击一个按钮,就需要独立的API密钥和OAuth流程。

WebMCP:新一代解决方案

WebMCP,全称“Web模型上下文协议”(Web Model Context Protocol)。 这是一个由谷歌和微软共同撰写的W3C社区小组标准。

它增加了一个新的浏览器原生JavaScript API:navigator.modelContext。 这个API允许任何网站直接向AI代理暴露结构化的、可调用的工具。

可以把它想象成前端的MCP。 Anthropic为后端服务器构建了MCP。 而谷歌则为浏览器构建了它。

三层架构

该架构包含三个核心组件。

  1. 网页:负责注册工具。
    • 例如,一个旅游网站可以暴露一个航班搜索功能。
    • 或者一个代码审查工具可以暴露测试运行状态。
  2. 浏览器:充当中间调解者。
    • Chrome浏览器位于中间,负责执行权限、管理用户同意,并调解每一次工具调用。
  3. AI代理:如Claude、ChatGPT、Gemini。
    • 它会发现可用的工具,并使用结构化的JSON输入来调用它们。

浏览器是这个架构中的信任层。

graph TD;
    A[AI代理 (Claude, Gemini)] -- 1. 发现并调用工具 --> B{浏览器 (Chrome)};
    B -- 2. 调解并执行 --> C[网页 (暴露的工具)];
    C -- 3. 返回结果 --> B;
    B -- 4. 将结果传回 --> A;

两种实现方式

WebMCP提供了两种暴露工具的方式。

1. 声明式方法

声明式方法非常简单。 只需在你现有的HTML表单上添加几个属性: tool-nametool-descriptiontool-autosubmit

大功告成。

浏览器会自动解析你的输入字段,并生成一个JSON schema。 完全不需要JavaScript。

<form action="/search" method="get"
      tool-name="flightSearch"
      tool-description="Search for available flights."
      tool-autosubmit>
  <input name="destination" placeholder="Destination">
  <input name="departureDate" type="date">
  <button type="submit">Search</button>
</form>

你现有的表单,只需五行HTML属性,就能变成AI代理可调用的工具。

2. 命令式API

如果需要更精细的控制,可以使用命令式API通过JavaScript注册工具。 调用 navigator.modelContext.provideContext,并传入一个tools数组。

每个工具都需要一个名称、描述、输入schema和一个execute回调函数。

navigator.modelContext.provideContext({
  tools: [{
    name: 'run_tests',
    description: 'Run integration tests for the current pull request.',
    inputSchema: {
      type: 'object',
      properties: {
        testSuite: { type: 'string', description: 'Name of the test suite to run.' }
      }
    },
    execute: async (params) => {
      // 这个回调函数在页面的JS上下文中运行
      console.log(`Running test suite: ${params.testSuite}`);
      const results = await window.myApp.runTests(params.testSuite);
      return { status: 'completed', results };
    }
  }]
});

这个回调函数在你的页面JavaScript上下文中运行。 这意味着它可以共享用户的cookies和会话身份验证。 不再需要独立的API密钥。 代理只需调用你的函数即可。

惊人的性能提升

性能数据不言自明。 与传统的基于屏幕截图的代理相比:

  • 令牌效率提升89%
  • 计算开销减少67%
  • 任务准确率从大约70%跃升至98%

这不是渐进式的改进。 这是代理与网络交互方式的范式转变。

[!TIP] WebMCP vs. Anthropic MCP:有何不同?

重要的是要区分这两者。它们是互补的,而非竞争关系。

  • MCP (Anthropic):是后端协议,通过标准I/O上的JSON-RPC连接AI平台与服务器端工具。
  • WebMCP (Google/Microsoft):是前端协议,一个浏览器原生API,连接AI代理与客户端网页。

两者结合,构成了AI工具集成的全栈解决方案:后端与前端,服务器与浏览器。

无限的应用场景

应用场景无处不在。

  • 电子商务代理:通过结构化工具进行搜索、筛选和结账。
  • 代码审查看板:检查测试结果并提出修改建议。
  • 设计工具:通过自然语言与AI协作。
  • 任务管理器:让代理在不接触DOM的情况下添加、完成和组织任务。

现状与未来

目前,该功能已在Chrome 146 Canary版本中通过一个标志位提供。 该规范仍是W3C社区小组的草案,尚未成为正式标准。

[!WARNING] 安全问题不容忽视

规范中的安全部分仍是占位符。

  • 通过工具描述进行的提示注入
  • 通过工具链实现的数据泄露

这些都是需要切实解决方案的真实担忧。

不过,带有requestUserInteraction的“人在回路”(human-in-the-loop)API是一个坚实的开端。

WebMCP是连接AI代理与网络的缺失桥梁。 它尚未准备好用于生产环境。 但如果你正在构建由代理驱动的体验,现在就应该开始学习它。


Join the 10xdev Community

Subscribe and get 8+ free PDFs that contain detailed roadmaps with recommended learning periods for each programming language or field, along with links to free resources such as books, YouTube tutorials, and courses with certificates.

Audio Interrupted

We lost the audio stream. Retry with shorter sentences?