技术趋势

当 AI 学会「画界面」：A2UI 如何重新定义人机交互

从文字到界面，AI 正在经历一场表达方式的革命。A2UI 协议让 AI 能够直接生成可交互的界面，这将如何改变我们与 AI 的沟通方式？

Zhama AI 技术团队

2026年1月13日

63 min read

当 AI 学会「画界面」：A2UI 如何重新定义人机交互

你有没有想过，为什么我们和 AI 对话时，它只能「说」，却不能「做」？

这个问题看似简单，却揭示了当前 AI 交互的根本局限——无论 AI 有多聪明，它的表达方式始终停留在「文字」这一层面。而 A2UI 的出现，正在打破这个局限。

在这篇文章中，我们将深入探讨 A2UI 技术的方方面面：它是什么、为什么重要、如何工作、有哪些应用场景，以及它将如何改变我们与 AI 交互的方式。无论你是技术人员还是普通读者，相信都能从中获得启发。

一个关于「表达」的故事

在正式介绍 A2UI 之前，让我们先讲一个关于「表达」的故事。

1960 年代，计算机科学家们面临一个难题：如何让普通人也能使用计算机？

那时候，计算机只能通过「命令行」操作——你必须记住一堆神秘的指令，比如 ls -la、grep -r、chmod 755，才能让计算机做事。这就像学习一门外语，门槛极高。

1968 年，一位名叫道格拉斯·恩格尔巴特（Douglas Engelbart）的科学家做了一场著名的演示，后来被称为「所有演示之母」（The Mother of All Demos）。在这场演示中，他展示了鼠标、窗口、超链接等革命性的概念。

他的核心理念是：让计算机适应人类的思维方式，而不是让人类适应计算机。

二十年后，苹果的 Macintosh 将这个理念变成了现实——图形界面让普通人也能使用计算机。你不需要记住命令，只需要用鼠标点击图标。计算机学会了用「画面」与人沟通，而不只是「文字」。

今天，我们正在见证另一次类似的变革。

AI 已经能够理解自然语言、回答复杂问题、生成各种内容。但它的表达方式仍然停留在「文字」层面——就像 1960 年代的命令行时代。

A2UI 的意义在于：让 AI 学会用「界面」与人沟通。

这不是一个小小的技术改进，而是人机交互范式的根本转变。

从一个日常场景说起

假设你对 AI 说：「帮我订一张明天去上海的机票。」

现在的 AI 会怎么回答？

它会给你一大段文字：航班信息、价格对比、注意事项……然后告诉你「请前往某某网站完成预订」。

你需要：

阅读这些文字
复制航班号
打开另一个网站
手动填写信息
完成支付

AI 说了很多，但实际上什么都没「做」。

这种「只说不做」的模式，几乎存在于我们和 AI 的每一次交互中。无论是让 AI 帮你分析数据、填写表单、还是生成报告，最终你都需要离开对话界面，去另一个地方完成实际操作。

AI 像是一个博学但不会动手的顾问——它可以告诉你怎么做，但不能帮你做。

这个问题的根源在于：AI 的「嘴」和用户的「手」之间，存在一道看不见的鸿沟。AI 只能输出文字，而用户需要的是可以操作的界面。这道鸿沟，需要用户自己去跨越。

如果 AI 能直接「画」出界面呢？

想象另一种场景：

你说：「帮我订一张明天去上海的机票。」

AI 直接在对话框里展示一个真正的预订界面：

三个航班选项，清晰的卡片布局，每张卡片显示航空公司、出发时间、到达时间、价格
价格、时间一目了然，还能按价格或时间排序
点击「选择」按钮，卡片高亮
弹出乘客信息表单，你可以直接填写
确认后弹出支付界面
完成

整个过程没有离开对话界面，没有复制粘贴，没有在多个应用间切换。

从「说」到「做」，这就是 A2UI 要实现的事情。

这不是科幻电影中的场景，而是 Google 在 2025 年底发布的 A2UI 协议所定义的交互方式。这项技术正在从概念走向现实，而我们已经实现了它的首个完整版本。

为什么「界面」比「文字」更强大？

在继续之前，让我们从认知科学的角度理解一个问题：为什么图形界面比纯文字更有效？

人类大脑的「带宽」

认知心理学研究表明，人类处理视觉信息的速度是处理文字的 60,000 倍。

这不是夸张——我们的大脑有超过 50% 的区域参与视觉处理，而语言处理只占用很小一部分。这是进化的结果：我们的祖先需要快速识别猎物、天敌、地形，视觉系统因此高度发达。

当信息以图形界面呈现时：

我们可以「一眼看到」整体结构
我们可以通过颜色、大小、位置快速识别重点
我们可以用直觉而非逻辑来理解关系

当信息以纯文字呈现时：

我们必须「线性阅读」每一个字
我们必须在脑中构建心理模型
我们容易遗漏细节或误解含义

这就是为什么同样是展示「销售数据」，一个图表比一段文字描述有效得多。

「认知负荷」的概念

心理学家约翰·斯威勒（John Sweller）提出了「认知负荷理论」——人类的工作记忆容量是有限的。当我们需要同时处理太多信息时，就会「过载」，导致理解困难、容易出错。

传统 AI 对话的问题在于：它把所有认知负荷都转嫁给了用户。

AI 输出一段文字，用户需要：

阅读并理解内容（内在负荷）
记住关键信息（记忆负荷）
切换到其他应用执行操作（外在负荷）
在脑中维护任务状态（管理负荷）

这些负荷加在一起，很容易超出工作记忆的容量。结果就是：操作繁琐、容易出错、体验糟糕。

A2UI 通过让 AI 生成界面，将大部分认知负荷从用户转移到了系统。 用户不需要记忆、不需要切换、不需要手动管理状态——界面帮你处理这一切。

「直接操纵」原则

人机交互领域有一个重要概念叫「直接操纵」（Direct Manipulation）：用户应该能够直接操作他们看到的对象，而不是通过间接的命令。

举个例子：

间接操纵：输入命令 move file1.txt to folder2/
直接操纵：用鼠标把文件图标拖到文件夹里

直接操纵的优势是显而易见的：更直观、更不容易出错、学习成本更低。

传统 AI 对话本质上是「间接操纵」——你用文字告诉 AI 你想做什么，AI 用文字告诉你怎么做，然后你自己去做。中间隔了好几层。

A2UI 让 AI 生成可交互的界面，实现了「直接操纵」——你看到什么，就能操作什么。想法和行动之间的距离被大大缩短。

A2UI 是什么？

A2UI，全称 Agent-to-User Interface（智能体到用户界面），是 Google 在 2025 年 12 月正式发布的一项开放协议。

简单来说，它定义了一套标准规则，让 AI 能够输出可交互的界面元素，而不仅仅是文字。

一个类比：从 HTML 到 A2UI

如果你熟悉网页开发，可以这样理解：

HTML 是人类开发者写给浏览器的「界面描述语言」——开发者写 HTML 代码，浏览器渲染成网页
A2UI 是 AI 写给应用程序的「界面描述语言」——AI 输出 A2UI 数据，渲染器渲染成交互界面

区别在于：HTML 由人类编写，需要专业技能；A2UI 由 AI 生成，只需要自然语言指令。

传统 AI 输出 vs A2UI 输出

维度	传统 AI	A2UI AI
输出形式	纯文本或 Markdown	结构化的界面描述
用户操作	需要手动执行	可以直接交互
信息呈现	线性文字流	可视化组件
任务完成	多次对话+手动操作	一次对话完成
数据交互	用户复制粘贴	直接点击操作
状态管理	用户自己记忆	界面自动维护

A2UI 支持的界面元素

这些界面元素涵盖了大多数应用场景：

基础组件

文本：支持富文本格式、标题层级、强调样式、链接、列表
按钮：可配置样式（主要、次要、危险）、图标、加载状态、禁用状态
输入框：单行、多行、密码、搜索、数字、邮箱等多种类型，支持验证规则
复选框和单选框：支持分组、联动、默认值

布局组件

卡片：信息聚合的容器，支持头部、封面图、内容区、操作区
列表：垂直或水平排列，支持分页、懒加载、拖拽排序
表格：支持排序、筛选、分页、行选择、单元格编辑
选项卡：多视图切换，支持懒加载
折叠面板：可展开/收起的内容区域
分栏布局：灵活的多列布局

数据可视化

图表：折线图、柱状图、饼图、散点图、面积图、雷达图、热力图等
进度条：线性或环形，支持多段、动画
统计卡片：关键指标展示，支持趋势箭头、对比数据
时间线：事件流程展示

媒体组件

图片：支持轮播、缩放、懒加载、水印
视频和音频：内嵌播放器，支持进度控制
文件：上传、下载、预览
地图：位置展示和选择

高级交互

模态对话框：确认、表单、详情展示、多步骤向导
下拉菜单：单选、多选、搜索、分组
日期选择器：单日、范围、时间
滑块：数值范围选择
评分：星级评价
拖拽上传：文件拖放区域

AI 不再只是一个「文字生成器」，而是变成了一个「界面设计师」。

A2UI 的工作原理

你可能会好奇：AI 是怎么「画」出界面的？

其实，AI 并不是真的在「画」界面，而是在「描述」界面。这个过程可以用一个生活中的比喻来理解。

一个比喻：AI 是建筑师，渲染器是施工队

想象你要盖一栋房子：

传统方式：你告诉建筑师「我想要一栋房子」，建筑师给你写了一份 500 页的说明书，描述每个房间的尺寸、每块砖的位置、每根管道的走向。然后你需要自己找施工队、买材料、监督施工。

A2UI 方式：你告诉建筑师「我想要一栋房子」，建筑师直接画出设计图纸，施工队按图施工，你只需要验收入住。

在这个比喻中：

你 = 用户，提出需求
建筑师 = AI，理解需求并设计方案
设计图纸 = A2UI 数据，标准化的界面描述
施工队 = 渲染器，按照图纸构建界面
房子 = 用户看到的交互界面

AI 不需要会砌砖、接水管（不需要会画图表、处理点击），它只需要会设计（知道什么界面适合什么场景）。这就是「关注点分离」的威力。

第一步：AI 生成界面描述

当你对 AI 说「展示上个月的销售数据」，AI 会生成一段结构化的数据，描述应该展示什么界面。

就像建筑师画图纸一样，AI 会「画」一份界面图纸：

组件类型：图表
图表类型：柱状图
标题：2025年12月销售额
数据：[
  { 月份: "第一周", 销售额: 120 },
  { 月份: "第二周", 销售额: 150 },
  ...
]
可交互：支持点击查看详情

这份「图纸」包含了界面的所有必要信息：用什么组件、显示什么数据、支持什么交互。但它不包含任何「如何实现」的细节——那是渲染器的工作。

AI 不需要知道如何绑制柱状图，它只需要知道「用户想看销售数据，柱状图是合适的展示方式」。

第二步：渲染器解析并渲染

渲染器（如我们的 @zhama/a2ui）接收这份「图纸」，将其转换为真正的界面元素。

渲染器就像一支训练有素的施工队，它知道如何：

根据数据绑制柱状图
添加鼠标悬停效果
处理用户点击事件
实现平滑的动画过渡
适配不同屏幕尺寸
支持深色/浅色主题

它把 AI 的「设计图纸」变成用户看到的「精装修房子」。

第三步：用户交互反馈给 AI

当用户点击某个数据点时，渲染器捕获这个事件，生成一个「用户动作」消息发送给 AI。

AI 收到消息后，知道用户对这个数据点感兴趣，可以生成更详细的分析或相关的操作选项。

整个过程形成一个闭环：AI 描述 → 渲染器展示 → 用户交互 → AI 响应 → 新的描述……

这就是 A2UI 的魔力：AI 专注于理解需求和决定内容，渲染器专注于展示和交互，两者各司其职，协同工作。

这对不同角色意味着什么？

对普通用户：告别「复制粘贴」时代

以前和 AI 对话，像是在和一个「只会说不会做」的助手沟通。你问它问题，它给你答案，但答案只是文字。你需要自己去执行这些文字描述的操作。

这就像你问一个人「怎么去火车站」，他给你详细描述了路线，但你还是得自己走过去。

有了 A2UI，AI 可以直接帮你：

场景一：填写复杂表单

以前：AI 告诉你需要填写哪些信息，你去找表单，一项项填写，可能还会漏填或填错。

现在：AI 直接生成表单，预填已知信息，标记必填项，提供输入验证。你在对话中完成填写，AI 帮你检查和提交。

场景二：数据查询

以前：AI 告诉你数据是什么，你需要自己整理，可能还要手动做表格或图表。

现在：AI 直接生成交互式图表和表格。你可以点击筛选、拖动排序、切换视图、一键导出。

场景三：预约服务

以前：AI 告诉你可用时间段，你需要记住这些时间，打开日历应用，找到正确的日期，创建事件。

现在：AI 直接显示日历组件，可用时段高亮显示。你点击选择，填写备注，确认完成。AI 还能自动发送提醒。

场景四：购物决策

以前：AI 给你一堆产品信息的文字描述，你需要自己比较，可能还要打开多个网页。

现在：AI 生成产品对比卡片，关键参数并排显示。你可以添加对比项、调整排序、直接下单。

减少复制粘贴，减少来回切换，减少信息遗漏，一切都在对话中完成。

对企业：AI 客服的质变

传统的 AI 客服有一个根本性的问题：它只能回答问题，不能解决问题。

根据行业研究，传统 AI 客服的问题解决率通常只有 20-30%，大部分复杂问题最终还是需要转接人工。这不仅影响用户体验，也增加了企业的人工成本。

问题出在哪里？AI 客服只能「说」，不能「做」。

当用户说「我想退货」，传统 AI 会回复：「请登录您的账户，进入订单页面，点击退货按钮……」然后用户需要自己去操作。如果用户遇到任何问题，又要回来继续问。

这不是真正的服务，这只是一个会说话的说明书。

有了 A2UI，AI 客服可以：

直接展示订单列表

用户说「我想退货」，AI 直接显示用户的近期订单，卡片形式，每个订单显示商品图片、名称、购买日期、订单状态。用户点击要退的那个，无需记订单号，无需登录跳转。

生成退货申请表单

用户选择订单后，AI 直接显示退货原因选择框（预设常见原因）、退款方式选项（原路返回、余额、换货）、补充说明输入框、上传图片按钮（如有质量问题）。用户填写完成后点击提交。

实时显示处理进度

提交后，AI 显示一个清晰的进度时间线：「申请已提交 → 商家审核中 → 等待寄回 → 验收中 → 退款处理中 → 完成」。每个节点显示时间和状态，用户可以随时回来查看进度。

主动提供后续服务

退款完成后，AI 可以主动询问：「退款已到账，您是否需要重新选购其他商品？」并展示相关推荐。

从「问答机器人」升级为「服务终端」——用户不需要离开对话界面，就能完成整个业务流程。

这意味着：

问题解决率大幅提升（从 30% 到 80%+）
人工客服压力降低，可以专注处理真正复杂的问题
用户满意度提升，因为问题真的被解决了
服务成本降低，同时服务质量提升

对开发者：降低 AI 应用开发门槛

以前要让 AI 输出结构化内容，开发者需要：

设计复杂的提示词，让 AI 输出特定格式的 JSON（容易出错）
编写解析代码，处理 AI 输出中的各种异常情况（非常繁琐）
设计前端组件，渲染这些数据（需要 UI 开发能力）
处理用户交互，将操作结果反馈给 AI（状态管理复杂）
不断调试，因为 AI 的输出格式经常不稳定（永无止境）

整个过程充满了不确定性，开发周期长，维护成本高。很多开发者被迫在「提示工程」上花费大量时间，而不是专注于产品本身。

有了 A2UI，开发者可以：

使用标准化协议

A2UI 定义了清晰的数据结构，AI 输出什么格式、包含哪些字段、如何描述交互，都有明确规范。主流的 AI 模型都在逐步支持 A2UI 输出。不再需要自己设计和维护私有格式。

使用现成的渲染器

我们开源的 @zhama/a2ui 提供了完整的 React 渲染器。只需将 AI 输出传入组件，界面自动渲染，交互自动处理。15 行代码就能跑起来。

专注于业务逻辑

开发者不再需要关心「如何让 AI 输出正确格式」「如何渲染这些数据」「如何处理用户点击」。这些都由协议和渲染器解决。开发者只需要关心：用户想做什么，AI 应该提供什么帮助。

复用和扩展

A2UI 是开放协议，渲染器可以替换和扩展。你可以使用我们的默认样式，也可以定制自己的主题。你可以添加自定义组件，扩展协议能力。

降低开发门槛，加速 AI 应用落地。 原本需要几周的开发工作，现在可能只需要几天。

各行业的应用场景

A2UI 不是只适用于某一个领域的技术，它是一种通用的交互范式，可以应用于几乎所有需要人机交互的场景。

金融服务：让理财更简单

智能投顾

传统的投资建议是一份长长的报告，充满了专业术语和复杂图表。普通用户很难理解，更难采取行动。

A2UI 加持的智能投顾：

展示清晰的资产配置饼图，每个部分可点击查看详情
生成「买入」「卖出」「调仓」等操作按钮，一键执行
模拟不同策略的收益曲线，用户可以滑动时间轴查看
风险提示以醒目的卡片形式展示，确保用户注意到

贷款申请

传统流程：填写长长的纸质表单或跳转多个网页。

A2UI 流程：AI 通过对话了解需求，逐步生成必要的表单字段（而不是一次性展示几十个输入框），自动计算可贷额度，展示还款计划表格，一键提交申请。

账单查询

用户说「我上个月信用卡花了多少」，AI 直接展示：

总消费金额的统计卡片
分类消费的饼图（餐饮、购物、交通等）
详细账单的可展开列表
「导出」「设置提醒」等操作按钮

医疗健康：让就医更便捷

在线问诊

传统在线问诊是纯文字对话，医生很难获取完整信息。

A2UI 加持的问诊：

AI 生成结构化的症状选择器（部位、性质、持续时间）
展示症状严重程度滑块
支持上传检查报告和照片
生成预约检查的日历组件
展示药品信息卡片，包含用法用量

健康管理

用户说「看看我这周的运动数据」，AI 展示：

每日步数的柱状图
心率变化的折线图
睡眠质量的评分卡片
与目标对比的进度环
「调整目标」「分享成果」等按钮

用药提醒

AI 不只是发送文字提醒，而是展示：

药品图片和名称
本次用量和用法
「已服用」「稍后提醒」按钮
剩余药量和补购提醒

教育培训：让学习更高效

个性化学习

传统在线课程的问题是「一刀切」——所有人看同样的视频，做同样的题目。

A2UI 加持的 AI 导师：

根据测试结果生成个性化的知识图谱（雷达图）
薄弱环节生成专项练习（可交互的题目卡片）
学习进度用时间线展示
提供「跳过已掌握」「深入学习」等选项

交互式案例

学习商业案例时，AI 生成一个模拟场景：

公司关键数据的仪表盘
几个决策选项的按钮
点击后展示决策后果
可以「回溯」尝试不同选择
最后生成学习总结和评分

语言学习

AI 生成交互式对话场景：

场景描述卡片（餐厅点餐、机场值机等）
可选的回复选项
点击后 AI 继续对话
实时发音评分
生词本功能

电商零售：让购物更愉快

智能导购

用户说「我想买一台适合家用的咖啡机」，AI：

先用几个选择题了解需求（预算、常喝的咖啡类型、使用频率）
生成 3-5 款推荐产品的对比卡片
每个卡片包含图片、价格、关键特性、用户评分
支持添加对比、查看详情、一键购买

售后服务

前面已经详细描述过退货流程，这里补充几个场景：

安装预约：展示安装师傅的日程表，用户点击选择时间，填写地址，确认预约。

维修报修：生成故障排查向导，逐步引导用户确认问题。如需上门，展示可选时间段。

换货申请：展示同款其他颜色/尺寸的库存情况，用户直接选择换货目标。

企业办公：让协作更顺畅

智能会议助手

会前：AI 生成会议议程卡片，参会人可以添加议题、上传材料。

会中：实时生成会议纪要，标记待办事项，支持一键分配负责人。

会后：生成任务清单，每个任务可设置截止日期和提醒，支持进度追踪。

智能审批

传统审批：邮件来回，附件下载，容易遗漏。

A2UI 审批：

审批内容以结构化卡片展示
关键信息高亮
「同意」「驳回」「转交」按钮
历史审批记录时间线
待审批数量角标提醒

数据报表

这是 A2UI 最典型的应用场景之一：

这些不是静态图片，而是 AI 根据数据实时生成的交互式图表。用户可以：

悬停查看具体数值
点击某个数据点深入查看明细
切换时间范围或筛选条件
导出数据或图表
用自然语言请求更多分析

政务服务：让办事更便利

智能办事指南

市民说「我想办理居住证」，AI：

首先确认身份信息和办理类型
生成所需材料清单（复选框形式，可勾选已准备好的）
展示办理流程时间线
显示最近的办事大厅地图和预约入口
一键预约，生成预约确认卡片

在线申报

传统的政务表单往往非常复杂，让市民望而却步。

A2UI 可以：

根据用户情况动态显示需要填写的字段（而不是显示全部）
自动关联已有数据（如身份信息、社保信息）
实时校验输入内容
分步骤引导完成
生成申报结果和后续指引

与现有技术的对比

你可能会问：市面上已经有很多「AI + 界面」的解决方案，A2UI 有什么不同？

与传统聊天机器人的区别

维度	传统聊天机器人	A2UI
输出形式	固定的快捷回复按钮	动态生成的丰富界面
灵活性	预设的有限选项	根据上下文无限组合
交互能力	只能选择预设选项	支持输入、选择、拖拽等
开发成本	需要预先设计所有流程	AI 自动生成适合的界面

传统聊天机器人的「按钮」是开发者预先设计好的，它们只能处理预想到的场景。而 A2UI 让 AI 根据用户的具体需求，动态生成最合适的界面。

与低代码/无代码平台的区别

维度	低代码平台	A2UI
界面生成者	人类拖拽配置	AI 自动生成
适用场景	相对固定的业务流程	动态变化的交互需求
灵活程度	在预设模板内灵活	完全根据需求生成
使用门槛	需要学习平台操作	用自然语言描述即可

低代码平台降低了开发门槛，但仍需人类来设计和配置界面。A2UI 更进一步，让 AI 直接根据需求生成界面，人类只需要表达想要什么。

与 RPA（机器人流程自动化）的区别

维度	RPA	A2UI
工作方式	模拟人类操作现有界面	直接生成新的界面
适用场景	自动化重复性任务	人机交互场景
用户参与	用户不参与执行过程	用户通过界面参与决策
灵活性	按固定脚本执行	根据对话动态调整

RPA 是让机器人代替人类操作界面；A2UI 是让 AI 为人类生成界面。两者解决的是不同的问题，也可以互相配合。

安全性与隐私考虑

引入新技术时，安全性是企业最关心的问题之一。A2UI 在设计时就考虑到了这些方面：

声明式设计，无代码注入风险

A2UI 协议采用声明式数据格式。AI 输出的是「界面描述」，不是「可执行代码」。

这意味着：

AI 不能执行任意代码，只能使用预定义的组件类型
渲染器只会渲染符合协议规范的内容
恶意指令无法通过 A2UI 执行危险操作

例如，即使有人试图让 AI 输出恶意脚本，渲染器也不会执行——因为「脚本」不是 A2UI 协议定义的组件类型。

权限控制

A2UI 支持细粒度的权限控制：

可以限制 AI 能使用哪些组件类型
可以限制界面能执行哪些动作
可以在动作执行前加入确认步骤
可以记录所有用户操作的审计日志

例如，在金融场景中，可以配置：交易操作必须二次确认，单笔金额超过阈值需要额外验证。

数据隔离

A2UI 渲染器可以配置数据访问范围：

AI 只能获取用户授权的数据
敏感数据可以脱敏后展示
支持数据分类分级管理

私有化部署

对于数据安全要求极高的企业，A2UI 完全支持私有化部署：

AI 模型可以运行在企业内网
数据不出企业边界
完全自主可控

实施路径与建议

如果你对 A2UI 感兴趣，想在自己的产品或业务中尝试，这里是我们的建议：

第一阶段：了解和体验

体验 Demo：访问我们的在线演示，感受 A2UI 的交互效果
阅读文档：了解 A2UI 协议规范和 @zhama/a2ui 渲染器的使用方法
评估场景：思考你的业务中有哪些场景可以用 A2UI 改善

第二阶段：小范围试点

选择试点场景：建议从客服、数据查询、表单填写等高频场景开始
快速原型：用 @zhama/a2ui 快速搭建原型，验证可行性
收集反馈：让真实用户试用，收集体验反馈

第三阶段：规模化应用

架构设计：设计支持 A2UI 的系统架构，考虑性能、安全、可扩展性
定制开发：根据业务需求定制组件样式和交互逻辑
持续优化：基于数据分析持续优化 AI 的界面生成策略

常见问题

Q：需要更换现有的 AI 模型吗？

不需要。A2UI 是一个协议层，可以与任何支持结构化输出的 AI 模型配合使用。通过适当的提示工程，GPT-4、Claude 3、Gemini 等主流模型都能输出 A2UI 格式。

Q：现有的前端代码需要重写吗？

不需要。@zhama/a2ui 是一个独立的 React 组件，可以嵌入到任何 React 应用中。你可以在现有应用的某个页面或模块中引入 A2UI，不影响其他部分。

Q：学习成本高吗？

很低。对于前端开发者，几小时就能上手。对于后端开发者，只需要了解如何让 AI 输出 A2UI 格式的数据。

Q：性能如何？

渲染器使用 React 18 构建，遵循最佳实践。对于常规场景，性能完全满足需求。对于超大数据量场景，我们提供虚拟滚动等优化方案。

为什么现在是时候？

A2UI 不是凭空出现的概念，它是多项技术成熟后的自然产物。

大语言模型的突破

GPT-4、Claude 3、Gemini 等大语言模型已经能够：

理解复杂的、多步骤的指令
生成格式严谨的结构化输出（JSON、XML 等）
根据上下文调整输出内容和格式
处理多轮对话，维持状态和记忆
理解用户意图，而不只是字面意思

这意味着让 AI 输出符合 A2UI 协议的界面描述，技术上完全可行。AI 不需要「学习画界面」——它只需要输出描述界面的数据，渲染器负责「画」出来。

前端技术的成熟

React、Vue、Svelte 等现代前端框架的核心思想就是「数据驱动界面」——你给框架一份数据，框架帮你渲染成界面。

这与 A2UI 的理念完美契合。AI 输出数据，前端框架渲染界面。两者之间只需要一个「翻译层」——这就是我们开发的 @zhama/a2ui 渲染器。

同时，Web Components、Shadow DOM 等技术让组件可以更好地封装和隔离，这对于将 A2UI 嵌入各种应用非常重要。

用户期望的提升

经过几年的 AI 普及，用户已经习惯了和 AI 对话。但他们也越来越不满足于「只能对话」。

用户希望 AI 能帮他们完成任务，而不只是提供信息
用户希望操作更直接，而不是在多个应用间跳转
用户希望交互更自然，像和人沟通一样
用户期望 AI 能真正「懂」他们，而不是需要精确的指令

市场需求已经存在，技术条件已经成熟。

A2UI 正是在这个时间点出现，把 AI 能力、前端技术、用户需求这三者连接起来。

我们在做什么？

Google 发布 A2UI 协议时，宣布官方的 React 渲染器将在 2026 年第一季度发布。

但我们等不及了。

Zhama AI 团队在协议发布后，立即开始了实现工作。我们基于 A2UI 协议规范，开发了首个完整的 React 实现：@zhama/a2ui。

为什么要抢先实现？

技术验证

我们相信 A2UI 是正确的方向，但协议能否落地、体验是否顺畅、有没有隐藏的问题，只有真正实现了才知道。通过实现，我们验证了协议的可行性，也发现并反馈了一些需要完善的地方。

积累经验

等到官方渲染器发布再开始学习，就已经落后了。通过提前实现，我们的团队深入理解了 A2UI 的设计理念和技术细节，为未来的应用开发积累了宝贵经验。

服务客户

我们的客户有真实的需求——他们希望尽快在自己的产品中使用这项技术。等不是办法，我们选择主动出击。

贡献社区

开源不仅是分享代码，更是参与技术发展。通过开源 @zhama/a2ui，我们希望推动 A2UI 生态的发展，让更多开发者和企业受益。

@zhama/a2ui 的特点

完整实现

100% 覆盖 A2UI 协议规范，包括所有组件类型、数据绑定、事件处理、动作系统。不是 Demo，是生产可用的完整实现。

独立样式系统

自带完整的 CSS 样式，不依赖 Tailwind 或其他框架。使用 a2- 前缀，避免与宿主应用的样式冲突。支持自动暗色模式，适配系统偏好。

安全设计

AI 输出的是声明式数据，不是可执行代码。渲染器只会渲染预定义的组件，不会执行任意代码，没有代码注入风险。

高性能

基于 React 18 构建，使用最新的 Concurrent 特性。支持虚拟滚动、懒加载等优化。在大数据量场景下也能保持流畅。

TypeScript 支持

完整的类型定义，提供良好的开发体验。IDE 智能提示，编译时类型检查，减少运行时错误。

开源免费

MIT 协议开源，你可以自由使用、修改、分发。我们相信开源能让技术更好地发展。

我们相信，早一步拥抱新技术，就是早一步获得竞争优势。

未来会怎样？

A2UI 只是开始，它开启的是一个全新的交互范式。随着技术发展，我们可能会看到更多令人兴奋的变化。

多模态融合

目前 A2UI 主要处理「AI 生成界面 → 用户点击操作」这个流程。未来，输入方式会更加丰富：

语音指令：你说话，AI 调整界面。「把这个图表放大」「切换到上个月的数据」
手势操作：在 AR/VR 环境中，用手势与 AI 生成的界面交互。捏合缩放、挥手翻页
眼动追踪：AI 根据你的注视点调整信息展示。你看着哪个数据点，详情就自动展开
情绪感知：AI 感知你的表情和语气，自动调整交互方式

界面不再是静态的，而是根据你的行为实时适应。

个性化极致

现在的应用，同一个功能对所有人展示相同的界面。但每个人的偏好不同——有人喜欢信息密集，有人喜欢简洁清爽；有人是视觉型，喜欢图表，有人是文字型，喜欢列表。

有了 AI 生成界面，这种个性化变得可能：

同样是「查看销售数据」，分析师看到详细的多维图表，CEO 看到一页简洁的摘要
界面风格根据用户偏好自动调整——配色、字号、布局密度
信息的呈现顺序根据用户的历史行为优化——常用的功能放在显眼位置
甚至同一个用户，在不同场景下看到不同的界面——办公时简洁高效，休闲时轻松有趣

无代码开发普及

目前，开发一个应用界面需要专业的设计师和工程师。但如果 AI 能生成界面，那么：

产品经理用自然语言描述需求，AI 生成可交互原型
创业者不需要技术背景，也能快速验证想法
企业内部的业务系统，业务人员自己就能定制
普通人也能「开发」自己的专属工具

产品原型从几周缩短到几分钟，软件开发的门槛大大降低。

这将释放巨大的创造力。以前被技术门槛挡在门外的人，现在可以直接把想法变成现实。

人机边界模糊

最终，「应用」和「AI 对话」的边界会变得模糊。你可能分不清自己是在「用一个应用」还是在「和 AI 对话」——因为两者融为一体。

界面即对话，对话即界面。你说的每一句话，都可能改变界面；你的每一次点击，都是和 AI 的交流。

想象一下：你打开手机，没有一个个独立的 App，而是一个统一的 AI 界面。你说「叫个外卖」，界面变成外卖选择页面；你说「帮我规划明天的行程」，界面变成日程安排器；你说「无聊」，界面变成游戏或内容推荐……

这不是某个「超级 App」的垄断，而是交互范式的根本改变——界面不再是固定的，而是根据需求动态生成的。

一个思想实验：2030 年的一天

让我们做一个思想实验，想象 A2UI 技术成熟后，普通人的一天可能是什么样子：

早晨

你醒来，对着智能音箱说：「今天安排怎么样？」

墙上的屏幕亮起，不是显示一个固定的日程 App，而是 AI 根据今天的具体情况生成的定制界面：

最上方是天气卡片，今天有雨，AI 自动把「带伞」加到了待办提醒
接下来是会议时间线，其中一个会议标红——因为 AI 发现你还没有准备汇报材料
右侧是交通建议，显示地铁和打车的对比，AI 根据天气和你的习惯推荐打车
底部是一个「快速准备材料」按钮，点击后会帮你生成汇报大纲

你说「点打车」，界面没有跳转到另一个打车 App，而是直接在当前界面展开打车选项，选择后自动叫车。

上班路上

在车上，你说「帮我准备一下 10 点的会议」。

车载屏幕显示会议背景介绍，以及 AI 整理的关键数据图表。你可以用手势滑动浏览，用语音修改内容。

到达公司时，演示文稿已经准备好，自动同步到了会议室的大屏幕。

工作中

在会议上，老板问「上个季度各区域的对比情况如何？」

你没有手忙脚乱地找 Excel、做图表。你只是对着电脑说「显示 Q3 各区域销售对比」，屏幕上立即出现一个清晰的柱状图，可以点击查看详情。

老板又问「如果华东区增加 20% 投入，预计影响是什么？」

你说「模拟华东区投入增加 20% 的效果」，图表自动加入一条虚线，显示预测结果。

整个过程，你像是在和一个能读懂心思的助手对话，而不是在操作一个复杂的软件。

午餐

你说「帮我点个午餐，健康点的」。

屏幕显示附近餐厅的健康餐选项，根据你的历史偏好和今天的胃口排序。卡片上显示热量、送达时间、评分。

你点击一个，确认下单，整个过程 10 秒完成。

下午

一个客户发来邮件，询问产品技术细节。

你没有打开邮件 App、查资料、写回复。你只是说「帮我回复这封邮件，根据产品文档说明功能」。

AI 生成回复草稿，以卡片形式展示。你可以点击修改某些段落，或者说「语气正式一点」让 AI 调整。确认后发送。

下班回家

路上，你说「今晚想吃火锅，帮我规划一下」。

界面显示附近火锅店地图，点击某家店，显示菜品推荐、预约选项、路线导航。你一边走一边用语音确认预约。

到家后，你说「今天有点累，找个轻松的节目看」。

电视显示 AI 根据你当前状态和历史偏好推荐的内容，不是传统的分类浏览，而是几个「今晚适合你」的选项卡片。

这意味着什么？

在这个场景中，你一天可能「使用」了十几个不同的功能——日程、打车、文档、数据分析、外卖、邮件、导航、视频……

但你没有打开过十几个 App，没有学习过十几套操作方式，没有在不同界面间反复切换。

你只是在和一个「懂你」的助手对话，它帮你处理一切，用最合适的界面呈现信息，用最少的步骤完成操作。

这就是 A2UI 最终要实现的愿景：让技术隐形，让体验自然。

当然，这个愿景不会一夜实现。但每一步——从今天的 A2UI 协议，到渲染器的完善，到生态的建设——都在向这个方向前进。

交互方式的进化史

回顾计算机交互方式的历史，我们可以发现一个有趣的规律：每一次革命的本质，都是让计算机更加「适应」人类，而不是让人类「学习」计算机。

让我们沿着时间线，看看这个规律如何反复验证：

命令行时代（1970s-1980s）

用户通过输入文字命令与计算机交互。cd、ls、grep……需要记忆大量命令，门槛极高，只有专业人士能使用。

这个时代的哲学是：人类必须学习计算机的语言。 你想和计算机沟通？先背下这本命令手册。

但它精确、高效，至今仍是程序员的重要工具——因为对于已经掌握这门「语言」的人来说，它是最直接的表达方式。

图形界面时代（1980s-2000s）

鼠标、窗口、图标的出现让普通人也能使用计算机。「所见即所得」成为设计原则。

这是第一次重大的范式转换：计算机开始学习人类的思维方式。 文件夹像真的文件夹，回收站像真的垃圾桶，桌面像真的办公桌。

这催生了个人电脑产业的爆发。1984 年 Macintosh 发布时，苹果的广告语是「为我们其他人准备的电脑」——不是为专家，是为普通人。微软、苹果成为巨头。

Web 时代（1990s-2000s）

浏览器成为统一的入口，任何设备都能访问网页。超链接让信息不再是线性的，而是网状的——这更符合人类大脑的联想方式。

这个时代的突破是：计算机开始适应人类获取信息的方式。 你不需要知道信息存在哪台电脑上，点击链接就能到达。

Google 发明了 PageRank 算法，让搜索结果按「人类会觉得有用」的方式排序。Amazon 发明了「一键购买」，减少用户的操作步骤。Facebook 让社交网络数字化。每一次创新，都是让技术更「懂」人。

移动互联网时代（2010s）

触摸屏让交互更加直观——你想移动一个图标？直接用手指拖它。这是人类几百万年进化出的本能，无需学习。

应用商店让软件分发更加便捷。「随时随地」成为常态。

这个时代的突破是：计算机开始适应人类的生活场景。 不是你去找电脑，是电脑跟着你。

智能手机成为人人必备的设备。据统计，2020 年全球智能手机用户超过 35 亿——这是人类历史上普及最快的技术之一。

对话式 AI 时代（2020s）

ChatGPT 等大语言模型让人机对话成为可能。这是又一次巨大的飞跃：计算机开始理解人类的自然语言。

你不需要学习任何命令、任何软件操作。你只需要像和人说话一样，告诉 AI 你想要什么。

2022 年 11 月 ChatGPT 发布，两个月内用户突破 1 亿。这是互联网历史上增长最快的应用。人们突然意识到：和计算机沟通，可以如此简单。

但这个时代有一个局限：AI 能听懂，却不能动手。它可以告诉你怎么做，但不能帮你做。这就像有一个博学的顾问，却没有一个能干的助手。

A2UI 时代（2025-）

AI 能够输出可交互的界面，真正从「说」到「做」。对话和操作融为一体。

这是交互进化的逻辑终点：计算机不仅理解人类的意图，还能直接帮人类执行。

技术进化的规律

观察这段历史，我们可以总结出几个规律：

规律一：每一代技术都让更多人能够使用计算机

命令行时代：几万专业人士
图形界面时代：几亿办公白领
Web 时代：十几亿网民
移动时代：几十亿智能手机用户
AI 时代：理论上所有能说话的人

用户规模的扩大，带来了市场规模的指数级增长。

规律二：每一代技术都降低了「想法」到「执行」的距离

命令行：想法 → 学习命令 → 输入命令 → 执行
图形界面：想法 → 找到按钮 → 点击 → 执行
触摸屏：想法 → 直接触摸 → 执行
AI 对话：想法 → 说出来 → AI 告诉你怎么做 → 自己执行
A2UI：想法 → 说出来 → 直接执行

距离越短，体验越好，效率越高。

规律三：每一代技术革命都诞生了新的巨头

图形界面：微软、苹果
Web：Google、Amazon、Facebook
移动：Apple App Store、Google Play、微信
AI：OpenAI、Anthropic......
A2UI：会是谁？

这将开启什么样的产业变革？每一次交互方式的革命，都创造了万亿级的市场机会。A2UI 代表的范式转换，机会可能更大——因为它不是创造一个新平台，而是让 AI 能力真正释放到所有场景中。

我们正在见证，也在参与。

最后

从命令行到图形界面，从网页到移动应用，每一次交互方式的革命都创造了巨大的商业价值，诞生了新的科技巨头。

A2UI 代表的是下一次革命：从「人适应机器」到「机器适应人」。

在这个新范式中：

AI 不再只是回答问题的工具，而是能够理解需求、生成界面、完成操作的智能助手
应用不再是固定的界面流程，而是根据用户需求动态生成的交互体验
开发不再是专业工程师的专利，而是人人可参与的创造活动
交互不再是学习软件操作，而是像与人沟通一样自然

这不是科幻，这是正在发生的现实。而我们，正站在这场革命的起点。

如果你是开发者——现在是探索 A2UI 的最佳时机。早期采用者将获得技术积累和经验优势。

如果你是企业决策者——考虑在客服、数据分析、业务办理等场景引入 A2UI，提升用户体验和运营效率。

如果你是产品经理——思考 A2UI 将如何改变你的产品形态，提前规划下一代交互体验。

如果你是普通用户——期待吧，更好的 AI 交互体验正在到来。

想要了解更多或开始使用？访问我们的 GitHub 仓库，或者联系我们讨论如何在您的业务中应用这项技术。

未来已来，你准备好了吗？

本文由 Zhama AI 技术团队撰写。我们致力于让 AI 技术更好地服务于人。

领先 Google 官方发布！我们开源了首个 A2UI React 完整实现

Google 发布了革命性的 A2UI 协议，让 AI 能够直接生成交互式界面。Zhama AI 团队率先开源了首个完整的 React 实现 @zhama/a2ui，无需等待官方渲染器。

当 AI 学会「画界面」：A2UI 如何重新定义人机交互

一个关于「表达」的故事

从一个日常场景说起

如果 AI 能直接「画」出界面呢？

为什么「界面」比「文字」更强大？

人类大脑的「带宽」

「认知负荷」的概念

「直接操纵」原则

A2UI 是什么？

一个类比：从 HTML 到 A2UI

传统 AI 输出 vs A2UI 输出

A2UI 支持的界面元素

A2UI 的工作原理

一个比喻：AI 是建筑师，渲染器是施工队

第一步：AI 生成界面描述

第二步：渲染器解析并渲染

第三步：用户交互反馈给 AI

这对不同角色意味着什么？

对普通用户：告别「复制粘贴」时代

对企业：AI 客服的质变

对开发者：降低 AI 应用开发门槛

各行业的应用场景

金融服务：让理财更简单

医疗健康：让就医更便捷

教育培训：让学习更高效

电商零售：让购物更愉快

企业办公：让协作更顺畅

政务服务：让办事更便利

与现有技术的对比

与传统聊天机器人的区别

与低代码/无代码平台的区别

与 RPA（机器人流程自动化）的区别

安全性与隐私考虑

声明式设计，无代码注入风险

权限控制

数据隔离

私有化部署

实施路径与建议

第一阶段：了解和体验

第二阶段：小范围试点

第三阶段：规模化应用

常见问题

为什么现在是时候？

大语言模型的突破

前端技术的成熟

用户期望的提升

我们在做什么？

为什么要抢先实现？

@zhama/a2ui 的特点

未来会怎样？

多模态融合

个性化极致

无代码开发普及

人机边界模糊

一个思想实验：2030 年的一天

早晨

上班路上

工作中

午餐

下午

下班回家

这意味着什么？

交互方式的进化史

技术进化的规律

最后

相关文章

领先 Google 官方发布！我们开源了首个 A2UI React 完整实现