还在拼命加 GPU？AI 应用规模化的下半场，拼的是这五大软件“新基建”_日常知识

还在拼命加 GPU？AI 应用规模化的下半场，拼的是这五大软件“新基建”

创始人

2025-10-26 10:44:48

0次

作者 | 天子、冯嘉、向阳、连城、源启

过去十年，我们通过中间件、数据库与容器技术，奠定了云原生应用基础设施（Application Infra）的基石。我们利用消息队列、实时计算与分布式存储，铺设了现代数据流动的高速公路（Data Infra）。

从云原生到 AI 原生，应用基础设施的范式正在经历一场深刻的跃迁：从面向资源的交付效率革命到面向认知的智能治理进化。AI 的世界观是概率性的、涌现的。给定的输入，通过一个黑盒模型，产生一个不确定的、但可能非常有价值的输出。

我们的使命，是为这个不确定的“创造过程”提供引导、护栏和成本控制。当前，AI 热浪正在席卷全球资本市场，根据英国《金融时报》最新报道，全球 10 家尚未盈利的 AI 初创公司在过去 12 个月内估值合计暴增近 1 万亿美元，创下史上最快的财富膨胀速度。资本和人才聚集在这一新趋势上，大家押注的，不仅是模型的算法、算力，高价值应用的涌现，更是我们能否实现人类智能的复制。

如今，AI 技术正在重塑一切。AI 应用的普及速度也正以一种前所未有的方式冲击着市场。我们正在迎接一个“比移动互联网大 10 倍”的浪潮。OpenAI 的 ChatGPT，在短短 2 个月内便吸引了超过 1 亿的月活用户，刷新了所有消费级应用的增长记录。这一速度，将过去需要数年才能完成的用户积累，如今被压缩到了惊人的数周。高盛预测，生成式 AI 领域的投资规模将达千亿美元级别，并可能为全球 GDP 带来 7% 的巨大增长。这种爆炸式的增长态势，为应用基础设施带来了前所未有的机遇与挑战。

先前构建的高效的数据通路已经远远不够，我们迫切需要构建一个能够容纳、管理和驱动无数自主智能决策单元的 智能城市，从“连接”转向“认知”。面对如此挑战，我们需要将过去构建通路的 经验升维，去设计和定义承载大规模智能体的下一代应用基础设施。过去在构建大规模高可靠分布式系统中的深厚积淀，使我们能够以一种更 体系化、更 工程化的思维，去探索和定义新一代 AI Infra所带来的全新挑战。接下来，本文将深入探讨智能应用基础设施背后的技术架构演进思考，以及如何利用这些技术“灯塔”，去构建承载和治理大规模智能体的 AI 原生应用中心。

1时代的回响 - 云原生基础设施的实践总结

回望过去十年，整个信息技术领域的核心叙事，无疑是围绕着云原生展开的。它并非一种单一技术，而是一整套 构建和运行现代化应用的系统性思想与实践。作为这场技术浪潮的深度参与者与贡献者，我们致力于将这些先进理念转化为支撑数字业务运行的坚实底座。

现代化数字城市的基础设施蓝图

时间回到 2014 年，当几个 Google 工程师决定将内部的 Borg 系统开源时，他们或许并未预见到，这个名为 Kubernetes 的项目，将如何定义下一个时代的云基础设施，并最终成为这座数字城市的“操作系统”。它为所有上层应用提供了统一、标准的规划蓝图和稳固地基。这使得不同功能、不同形态的应用服务与数据任务，都能在这片土地上和谐共生。

在城市内部，我们通过 Envoy、Istio、EventMesh 等服务网格技术，构建了精密高效的“智能交通网络”。同时，以 gRPC、Dubbo 作为标准化的“高速轨道”，确保了服务间的通信如同高铁般有序、迅捷与可靠。当然，城市的运转离不开能源和水源的持续供给。我们以 Kafka、RocketMQ 等消息流系统，构建了覆盖全城的“主动脉”，让数据像血液一样精准、实时地输送到每个需要的角落。

而像 HDFS 这类汇聚海量数据的“战略水库”，在云原生时代迎来新的发展。它不再是一个单一的分布式存储系统，而是演化成了一个提供多元化、API 化服务的存储基座，按需提供对象存储 (Object Storage)、块存储 (Block Storage) 和文件存储 (File Storage)，并通过 CSI (Container Storage Interface) 规范与上层应用无缝集成。

在这座数字城市中，总有一些设施是为了挑战速度的极限而存在。以 Redis 为代表的内存计算，便是这样的存在 - 它并非简单的加速器，而更像是构建在数据与应用之间的高速传送门。它以接近电光石火的速度，确保了每一次关键交互都能得到瞬时响应，成为整个城市体验的终极助推引擎。

图 1

从数字城市的整体规划设计——统一调度，到联通四通八达的交通网络 ——应用通讯，最后再到能源和水利系统——数据底座。正是通过这套分层协同的架构，我们在实践中融合了应用基础设施与数据基础设施，实现了重要突破。无论是服务于在线应用的微服务，还是用于后台分析的 Spark、Flink 作业，都被视为这座“数字城市”的居民，享受着统一的资源调度、网络通讯、数据存储和运维体验。这份实践最终沉淀为我们的核心交付，一个为所有业务负载提供弹性、韧性、可观测性与敏捷性的统一应用平台。我们始终相信，最优秀的基础设施，是离应用最近的基础设施。因为它承载着业务的每一次“心跳”，支撑着企业的每一次“成长”。

2时代的机遇 - AI 原生范式带来的颠覆性挑战

当云原生范式将数字城市的建设推向一个前所未有的高度后，我们一度认为，未来的叙事将是围绕这座精心构建的城市进行持续的精细化治理与迭代。

然而，历史的脚本，显然准备了更令人惊叹的下一章——一场更宏大的范式革命 AI 原生，正以不可阻挡之势席卷而来。一个新的物种——智能体（Agent）正以惊人的速度涌现。以大语言模型（LLM）为代表的 AI 技术，其角色正从一个外部依赖的咨询顾问，演变为这座城市里能够自主思考和行动的核心居民。就像电影《I，Robot》中觉醒的中央主脑一样，我们亲手构建的这座数字城市，它的大脑第一次不再是提问“我应该做什么？”，而是开始自主判断“什么才是对的？”

新王登基：当“AI 原生”叩问“云原生”

这标志着一个根本性的转变。应用拥有了“灵魂”，其核心行为模式从传统的“请求 - 响应”升级为“感知 - 理解 - 规划 - 行动”的自主循环。这场由 AI 驱动的范式革命，正对我们精心构建的云原生体系提出了一系列严峻的考验。我们曾经坚固的“城墙”和高效的“交通网络”，在这些拥有自主意识的“新居民”面前，开始显得力不从心：

从“编码为中心”到“智能体生命周期管理”

云原生时代，我们所有工作的核心都围绕着代码展开。开发者的职责是编写业务逻辑，平台工具则负责将这些代码构建成镜像，部署为服务并确保其稳定运行。整个生命周期管理是清晰、线性的。在最新的技术趋势报告中，Gartner 明确指出，生成式 AI 正催生一种全新的、以智能体为核心的应用架构。随着这些智能体逐渐成为应用的主角，这个以代码为中心的范式开始被颠覆。

不同于执行静态代码的传统应用，这种以 认知内核驱动，旨在自主理解并实现用户 动态意图的新一代应用——AI 原生应用，开始逐渐走入大众视野。在 AI 原生应用中，决定其行为的不再仅仅是代码，而是一个复杂的、动态的组合。它包含了作为“大脑”的大语言模型、定义其“人格与目标”的提示词（Prompt）、连接物理世界的“双手”即工具（Tools）、长期积累经验的“记忆”（Memory），以及驱动这一切的少量胶水代码。

开发者的核心工作，也从埋头编写业务逻辑，转变为一种更贴近导演或教练的角色——他们需要精心设计 Agent 的构成，反复调试其与环境的交互，并持续治理其自主行为，确保其目标对齐。

这就对应用基础设施提出了一个本质性的新要求：平台不能再仅仅是一个代码的 部署管道，而必须进化为一个 智能体的孵化器与管理器。它需要提供一套全新的 开发范式和 管理界面，让开发者能够直观地定义和组装一个 Agent。需要将过去被视为非结构化文本的 Prompt，像代码一样进行版本控制、AB 测试和灰度发布。需要建立一个统一的工具箱，让 Agent 可以按权限安全地调用各种 API。

总而言之，我们迫切需要一个能覆盖 Agent 从设计、开发、测试、调试、发布、监控到迭代演进的全生命周期的治理平台。而这，已经远远超出了传统 CI/CD 和应用管理平台的范畴。

从“无状态”到 “有状态”的长时记忆

云原生架构推崇无状态服务，以此换取极致的部署灵活性与弹性伸缩能力。然而，为了在 Serverless 范式下兑现业务“永远在线”的承诺，我们早已通过计算与状态分离的池化架构，成功攻克了有状态服务平滑伸缩这一业界难题。这一实践沉淀出的分层存储技术，恰好为今天我们构建智能体的“长时记忆”系统，提供了一个坚实无比的起点。

现实生活中，人人都想增加记忆。但我们必须清醒地认识到，智能体的记忆，远非简单的业务状态存储。它不是一个功能，而涉及用户体验、隐私和系统影响的设计决策。从架构视角来看，我们可以将其抽象为一个上下文层与行为层的组合，抽象成一个基础组件，使其成为一个安全的，可移植的记忆层，可以跨应用工作。

实践告诉我们，真正能帮助人类解决复杂问题的 AI，其卓越能力很大程度上源于其对精准上下文的理解，对过往经验的反思与归纳总结能力。它需要能实时获取物理世界的多元数据信息，在跨越数天、数月甚至更长时间的交互中不断学习和进化，而这必须依赖于一个可靠且高效的记忆系统。

因此，真正的挑战浮出水面：我们如何将久经考验的分布式存储底座，进行一次脱胎换骨的重塑？这已不再是服务于机器状态的升级，而是要构建一个能够支撑 AI 认知的全新记忆系统。这场变革的本质，是存储系统核心使命的三重演进：

从存储“数据”，到管理“知识”

传统存储关心的是比特和字节的无损记录。而新的记忆系统必须理解数据背后的语义，它管理的是由向量、图谱和实体关系构成的知识网络。它的职责不再是 存得下，而是 看得懂。

从响应“查询”，到使能“推理”

传统存储被动响应精确的 SQL 或 API 调用。而新的记忆系统要主动参与 AI 的推理链，它需要响应一个模糊的目标，并动态地整合、剪裁和生成上下文信息，为 AI 的每一步思考提供恰到好处的灵感素材。它的价值不再是找得快，而是给得对。

从记录“静态”，到驱动“演进”

传统存储是应用状态的一个快照。而新的记忆系统本身就是一个活的有机体，它通过持续的反馈闭环，从 AI 与世界的交互中学习，动态调整记忆的权重，形成新的认知联想。它的要求不再是记得全，而是要学得会。

综上所述，我们的目标，是为 AI 打造一个真正的认知“海马体”。它存在的意义，不只是为了快速遗忘或精准记忆，而是为了在海量经验中提炼智慧，在复杂情境中推理关联，并为智能体的每一次决策提供深邃的洞察力。

从“确定性编排”到“涌现行为治理”

过去很长一段时间里，无论是通过 serverless 工作流引擎编排在线、离线任务，还是通过 BPMN 驱动复杂的业务流程，我们都沉浸在一个 确定性的世界里。服务间的每一次调用、任务的每一个步骤，都遵循着预先设定的、可预测的有向无环图（DAG）。软件系统的行为，如同精密的机械钟表，一切尽在掌握。

早期的智能体架构，经历了从线性工作流到单 Agent 循环的演进。这一步虽提升了系统的鲁棒性与成果质量，但其内核仍是串行处理的范式，考验的是 Agent 之间的顺序接力。然而，当任务的复杂度超越了单点执行，需要被分解为多个可并行的子问题时，这种串行范式便暴露了其天花板。因此，让多个智能体并行协作，就从一种优化选项演变为一种架构必然。

在此驱动下，能够支持复杂协同策略的多智能体架构，成为了合乎逻辑的下一站。这一转变，也正式宣告了过去那种自上而下的、确定性的控制范式已然失效。取而代之的，是一个全新的指挥与协同框架。系统的核心，一个作为“指挥官”的 Orchestrator Agent，负责将宏观任务解构为可并行的策略意图，并分派给多个专业的执行 Agent。这些执行 Agent 并非简单的指令接收者。它们在一个共同的目标下，形成了一个动态的协作网络。它们自主感知环境、进行局部决策，甚至为了最优路径发起内部辩论。它们的交互不再是僵化的汇报线，而是一个弹性的、自适应的生命群体。

在这个群体中，系统的执行路径充满了非确定性。我们无法预知某个 Agent 会调用何种工具、与哪个同伴协商、在何时调整自己的计划。这种源于简单规则之上的复杂集体行为，正是涌现智能的真正魅力所在。但正如潘多拉魔盒一旦开启，与巨大潜力一同释放的，还有其潜在的风险。一个令人警惕的治理悖论也随之浮现：我们梦寐以求的、能够应对复杂世界的强大能力，恰恰源自于我们主动放弃对其过程的微观控制。

因此，伴随而来的核心挑战也愈发清晰：如何将我们的角色，从一个任务编排者重塑为一个涌现生态的治理者？这意味着，我们设计的不再是一个严格规定步骤的脚本执行器，而是一个能够容纳和引导不确定性的协作涌现空间。这个空间必须成为 Agent 运行时的核心引擎。它不应仅仅是 Agent 生存的容器，更要成为一个主动的干预框架。这个框架的核心职责包括：

运行时审查与修正 - 实时洞察并理解 Agent 动态生成的执行计划，防止其在复杂的协作中迷航。
资源与权限管理 - 对资源消耗、工具调用进行精细化的授权与监督。

归根结底，我们要做的是赋能而非放任，是引导而非控制，从而确保这股源自涌现的强大力量，始终在安全、可信的轨道上，为我们创造价值。

从“内聚服务”到“开放生态整合”

微服务后时代，以 Envoy、Istio、EventMesh 为代表的服务网格中间件，将网络通信能力从业务代码中下沉，交给一个独立的、与业务进程并存的边车代理。这样一来，所有服务间的东西向流量都被 Sidecar 劫持。我们不再需要改动任何业务代码，就能获得统一的重试、熔断、负载均衡、加密认证、以及端到端的可观测性。本质上，这是平台治理 Infra 的一场革命，将流量治理的权力从应用开发者手上，集中到了平台管理者这里。

但回望整个流量入口，大家往往会用 Nginx、F5 等做南北向的 API 网关，又在集群内部署一套 Istio 做东西向的服务网格。这导致了“两套班子，两套规则”，运维复杂，策略不一致。为了统一与简化架构，我们为云原生网关丰富了 L7 协议处理能力，使其能够基于 Header、Path 与 Body 等内容进行智能路由、重写与决策。同时，使其具有动态可编程性，网关不能再依赖静态配置文件和重启。它必须能通过一套标准的发现服务 xDS API，从控制平面动态接收服务发现、路由规则、安全策略等所有配置，并实现热加载，做到配置秒级生效且业务无感。

这套统一流量治理架构，其历史功绩在于为微服务建立了一个清晰的信任边界。它通过将流量控制、服务发现和零信任安全等能力下沉到基础设施层，成功地将一个混乱、复杂的内部服务网络，收敛成了一个边界清晰、行为可预测的秩序标准。

然而，AI 应用的诞生，其基因层面就要求打破边界。智能体的感知与行动能力，几乎完全依赖于对外部世界各种工具、API 与知识的动态整合。从 GPT、Claude 等基础模型，到 Google 搜索、天气查询等公共 API，再到企业内部的各种私有工具。这种根本性的转变，使得传统服务网格的流量治理范式捉襟见肘。深入洞察后，我们发现其根本挑战在于：

流量治理的重心，从服务间的负载均衡转变为对多种（统一世界模型的通用模型还未真正来临）外部模型的动态路由、成本与时延的精细权衡。
安全范式，从内部服务的双向认证 mTLS 互信，演变为对海量、异构的外部 API 安全凭证的统一注入与安全轮换。
资源管理维度，对每一次外部 API 调用的成本进行实时度量与预算控制，以及通过语义缓存来大幅优化昂贵的模型调用。

这一切都清晰地表明，我们需要构建一个专为 AI 生态打造的智能流量入口，它必须成为连接智能体与广阔数字世界的统一入口，提供一站式的路由、凭证、成本和安全治理能力。

从“白盒监控”到“黑盒行为洞察”

在微服务治理的黄金时代，我们围绕经典的可观测性三大支柱 - 指标（Metrics）、日志（Logging）和链路追踪（Tracing）构建了一套成熟的白盒监控体系。通过分析 CPU 占用率、函数调用日志和分布式调用链，我们能像钟表匠一样精确定位系统的每一个故障齿轮。

然而，这套为确定性“世界”设计的体系，在面对以 LLM/SLM 为核心的智能体时开始显得力不从心：

Metrics 失焦了，我们能度量 Token 消耗和 API 调用次数，但这些成本指标无法回答那个最关键的问题 - Agent 的这次决策，其智能的投入产出比是多少？
Logging 泛滥了，Agent 与大模型之间千变万化的 Prompt 和 Response，产生了海量的、非结构化的对话日志，我们淹没在对话的海洋中，难以找到关键的决策拐点。
Tracing 断裂了，传统的调用链只能追踪到 Agent 服务调用了大模型 API，但无法穿透进去，看到 Agent 内部的思考链。它为何做出这个决策？它的推理路径是什么？

LLM 本身就是一个深邃的黑盒，其决策过程是概率性的，而非确定性的。当一个 Agent 任务返回了不理想的结果，我们该如何溯源？是交付给模型的提示词存在歧义？是模型自身的能力不足以应对该任务？还是在众多的工具调用中，某一次执行失败导致了后续的连锁反应？

这里的核心矛盾在于，传统监控关心的是服务的生理健康（CPU、内存、磁盘），而我们现在必须洞察智能体的心理活动（决策过程）。因此，平台必须提供一种全新的可观测性范式，这种行为洞察不再是简单地记录代码执行，而是要能够完整复现 Agent 的“思考 - 行动 - 观察”的心路历程。通过将 Agent 的每一次决策、每一次外部调用、每一次结果反思都串联成一条清晰的行为轨迹，我们才能最终将这个黑盒的运作过程，转化为可供开发者调试、运维人员审计、产品经理理解的半透明视图，从而真正驾驭这些充满智能却又难以捉摸的数字生命。

以上五个环环相扣的挑战，共同编织出从云原生迈向 AI 原生所必须穿越的认知与架构的转型矩阵。这一系列结构性挑战，迫使我们不能再用打补丁的方式修补旧系统，而必须回归第一性原理进行系统性重建。在为新一代应用——AI 原生应用构建基础设施之前，必须先深刻理解新一代应用本身。我们认为，在 AI 原生时代，AI 智能体正是那个最具代表性、也最具挑战性的应用范式。它不仅涵盖了外部知识增强 RAG、工具调用等常见 AI 应用模式，更引入了包括 自主规划、动态决策、技能组合等更高维度的复杂性。以至简的内核去驾驭至繁的真实场景，解决实际问题，才能真正面向未来。

因此，从核心单元开始进行系统性重建就显得尤为重要。从智能体的定义与组装，到它运行时的动态治理，从开放生态的流量入口，到黑盒行为的深度洞察，基础设施的每一个核心层面都需要一场深刻的变革。在接下来的篇章中，我们将逐一解构其背后的技术本质，并提出一套完整而清晰的设计蓝图。一个能够真正承载、驱动和治理大规模智能体协同工作的下一代智能应用基础设施，将如何从我们熟悉的技术体系中演进而来。

3时代的擘画 - 构建下一代智能应用基础设施

图 2

当一个主流范式将其能力发挥至成熟，甚至繁荣的阶段时，它恰恰也为整个行业清晰地标定了那些“它无法回答的问题”。而下一个时代的浪潮，正是由那些致力于解答这些全新问题的探索者所开启的。过去十年，我们见证了云原生技术栈如何以前所未有的效率与弹性，重塑软件的开发与交付。如今，随着算力成本的指数级下降和模型规模的暴力美学式增长，我们正亲历一场由大规模、无监督学习所驱动的结构性变革。

我们能清晰地看到，过去那些围绕确定性逻辑和静态接口构建的原子能力，在面对以 Agent 为代表的、具备自主探索和涌现协同能力的新计算主体时，正遭遇经典的降维打击——其本质，就是当游戏规则本身被重写时，你过往赖以成功的壁垒，便瞬间形同虚设。

因此，我们需要的不是对现有能力的修补，而是一场彻底的架构跃迁。要完成这次深刻的跃迁，我们需要一张清晰的行动纲领。而在接下来的篇章中，这份时代的擘画就将逐一展开。正如上图 2 所示，通往 AI 新大陆的航海图已经绘就，其航向将由这五座关键的技术灯塔所指引。

灯塔一：智能体协作网格，典型代表 Agent Mesh

刚刚过去的十一黄金周，相信有不少人已经利用 AI 设计了自己的旅行规划：为一家四口（两个孩子分别是 5 岁和 10 岁）规划一次为期 10 天的瑞士深度游，偏爱自然风光和徒步，预算 8000 美元。

在智能原生时代，响应这个请求的不再是单一的、庞大的后端服务。取而代之的，可能是一个由多个专业 Agent 组成的动态团队，如下图 3 所示：

图 3

行程规划 Agent 作为总指挥，理解用户意图并拆解任务。它唤醒机票搜索 Agent，后者实时比对全球航司数据，寻找性价比最高的航班。同时，酒店预订 Agent 正在根据家庭友好、靠近自然、徒步等标签，筛选 Booking 和 Airbnb 上的住处。活动策划 Agent 则深入挖掘旅行博客和本地指南，为 5 岁和 10 岁的孩子分别设计有趣的每日活动。一个永远在线的预算监控 Agent 会像个会计，确保所有开销都在红线之内，并能在超支时提出预警和替代方案。

这还仅仅是一个用户的单一请求。假设我们的平台同时服务成千上万的用户，每个用户都有着独一无二的定制需求。在那一刻，后台将运行着成千上万个不同职能的 Agent，它们之间需要进行大量的、动态的、非确定性的交互。谁完成了任务？下一步该通知谁？预算有变动时，如何让所有相关 Agent 同步调整策略？

如果靠传统的硬编码或直接 API 调用来组织它们，结果将是一场灾难——一个脆弱、混乱、无法维护的“数字巴别塔”。这便是智能时代给我们带来的核心挑战 - 如何从管理代码和服务，进化到治理拥有自主性的智能体。

为了驾驭这场从代码为中心到智能体为中心的范式革命，我们需要一个全新的基础设施层。它必须超越简单的服务发现与调用，转而提供一个专为智能体设计的协作与治理框架。基于这一深刻洞察，我们从云原生时代的演进中汲取灵感，借鉴了服务网格在关注点分离上的经典架构范式，提出并联合社区构建了下一代智能应用的灯塔 Agent Mesh。

服务网格解决了微服务之间的流量与治理难题，Agent Mesh 要构建的是智能体之间的智能协作网格。它并非一个简单的 Agent 注册中心，而是覆盖 Agent 定义、调试、部署、监控、协作与治理全生命周期的神经中枢和交通总线。

图 4

如上图 4 所示，Agent Mesh 的核心由三大组件构成：

声明式的控制平面

如同每一艘远航的船只都需要在港口注册登记，每一个 Agent 也必须拥有一个声明式的、版本化的身份档案。我们可以选择继续扩展 Kubernetes CRD，将 Agent、Tool、PromptTemplate 等核心概念抽象为 AI 原生的 API 资源。这为整个网格建立了一套可靠的户籍管理系统。开发者可以通过熟悉的 YAML 文件或可视化界面，轻松地注册并配置一个 Agent，为其赋予清晰的身份 id、能力 skill 与行为准则 prompt，这是实现规模化治理的第一步。

事件驱动的协作总线

这正是 Agent Mesh 的灵魂所在。我们深刻地认识到，智能体之间的协作，绝不能是硬编码的直接调用链，那只会造就僵化而脆弱的数字作坊。同时，对于一个能应对海量复杂任务的 Agent 系统，Agent 的数量可能非常庞大，并且会随着时间、任务的变化而快速变化。Agent 之间的访问，在同步调用的方式下，也将面临调用关系复杂、感知不及时、容易受网络等波动影响等问题。真正的智能协同，应当是松耦合、异步且充满动态性的。

智能连接器“市场”

如果说协作总线是奔流不息的数据动脉，那么智能连接器就是植入每个 Agent 体内的、标准化的智能接入端口。它让 Agent 能够说总线能懂的语言，并听懂来自总线的声音，是 Agent 融入协作网络不可或缺的组成部分。这是一个高度可插拔的插件体系，它作为 Agent 与平台核心服务之间的 智能翻译官和 全能助理，主要打通三大关键交互：

赋能事件交互

连接器为 Agent 提供了一个极简的编程界面，将底层的消息引擎（如 Kafka、RocketMQ）客户端复杂性完全屏蔽。它自动处理事件的序列化、标准化，并确保可靠投递。Agent 只需表达我要发布一个成果的意图，连接器会处理剩下的一切。

无缝存取记忆

它提供记忆插件，让 Agent 可以直接通过简单的开放标准接口将思考结果存入 OpenMemory、MemoX 等记忆系统，或在启动时自动从记忆系统加载所需上下文，而无需关心底层数据存储的细节。

安全调用工具

当 Agent 需要使用工具时，工具调用插件会接管请求。它通过 AI 网关自动处理服务发现、身份验证、API 参数适配和安全审计，让 Agent 只需声明意图，即可安全地调用外部世界的能力。

智能连接器不仅是管道，更是主动的赋能者。它通过协议转换、上下文注入、数据标准化等能力，将 Agent 从繁琐的底层交互中彻底解放，使其能专注于思考本身，而非接线。

Agent Mesh 的架构蓝图，凝练了我们在多个技术领域长期探索的深刻洞察与工程实践。其设计哲学传承并演进了云原生时代的最佳实践：

控制平面的设计思想，直接脱胎于我们对服务网格治理体系的深刻理解。我们认为，管理成百上千个自主 Agent 的复杂性，与治理大规模微服务在哲学上是相通的，这为我们构建 Agent 的策略、身份与可观测性体系奠定了理论基础。
协作总线的实现路径，则根植于团队在事件驱动架构领域的丰富积累。无论是对 Kafka、RocketMQ 等主流消息中间件的驾驭能力，还是构建高吞吐、低延迟、轻 ETL 数据通道的工程经验，都构成了这套协作体系的坚实骨架。
智能连接器的插件化生态，是我们对平台化与可扩展性长期坚持的产物。唯有开放，方有生态。这一宝贵认知，塑造了 Agent Mesh 的架构之魂。一个高度模块化、可扩展的设计。它确保了任何一个组件，无论是模型、工具还是数据，都能被灵活地替换与增强，从而使整个架构能与日新月异的 AI 浪潮同频共振，永葆生机。

灯塔二：认知记忆平台，典型代表 MemoX

当前所有大语言模型最大的瓶颈之一就是上下文长度限制。无论是 GPT-4 的 128K，还是 Gemini 1.5 Pro 的 1M，巨头们投入巨额研发成本来扩展这个临时记忆窗口。由此可见记忆对于维持对话、理解任务的极端重要性。但窗口再大，也只是临时记忆，无法形成长期记忆。而这个模型层的技术天花板，直接导致了智能体在功能层面先天不足的宿命。

一个没有记忆的智能体，就像一只只有七秒记忆的“数字金鱼”。它无法从过去的成功或失败中学习，无法理解任务之间的关联，更无法形成对一个领域长期的、结构化的认知。这使得它永远停留在只能执行简单、孤立指令的工具层面，而非真正的自主智能。在提出 MemoX 架构之前，我们深入分析了当前记忆系统普遍存在的几大核心挑战：

记忆孤岛

业界当前大多数实现中，每个 Agent 都维护着自己独立的记忆文件，如一个本地向量库或 JSON 文件。它们各自为战，A 智能体犯过的错，B 智能体全然不知，C 智能体刚学到的知识，D 智能体无法利用。真正的智能是集体智能。缺乏共享的、全局的记忆中枢，是限制多 Agent 系统能力上限的根本瓶颈。

扁平检索

当前主流记忆方案过度依赖于向量相似度检索。这能解决“找到相似文本片段”的问题，但无法回答“A 和 B 是什么关系？”、“导致这个结果的关键决策链是什么？”等深层次的关联问题。记忆是扁平的，缺乏结构和因果。人类的记忆不仅是事实的堆砌，更是由无数关系、因果、概念组成的知识图谱。高效的记忆系统必须同时具备 相似度感知和 关系感知的能力。

不可移植

许多原型级的记忆系统是临时的、非托管的。它们与 Agent 进程绑定，一旦重启、迁移或扩容，记忆就会丢失或不一致。这在生产环境中是不可接受的，无法承载任何严肃的企业级应用。我们认为，记忆是 Agent 系统中最宝贵的有状态资产，必须以企业级的标准来设计和运维，保证其高可用、持久化和可扩展性。

基于以上洞察，我们提出并设计了 MemoX，它并非一个单一的分布式存储系统，而是 Agent Mesh 平台的核心认知中枢，一个为集体智能而生的有状态记忆服务。其本质是扩展大语言模型固有的无状态性和有限上下文窗口，通过模拟人类记忆过程（更新、提取、巩固、反思、遗忘等）来构建对外接口。它是一个分层的、共享的、统一的、支持“语义 + 关联”多重检索的认知记忆中心。如果说 etcd 是 Kubernetes 集群管理配置的“短期突触”，那么 MemoX 就是整个 AI 应用生态沉淀智慧的“长期海马体”。如下图 5 所示：

图 5

当前业界主流的存储引擎如 KV、图、向量、流存储等都不约而同的在记忆系统方面发力。MemoX 的复合型记忆架构，并非对单一存储技术的盲从，而是我们基于对不同记忆类型所需数据模型的判断，做出的一种审慎的工程选择。我们相信，强大的认知能力源于对不同类型信息的专业化处理。为此，我们将多种引擎进行有机融合，各司其职。

图引擎用于分析实体、事件间的关联关系，处理逻辑与关联。假设一个 DevOps 分析 Agent 正在复盘一次严重的“线上发布失败”事件。简单的日志检索只能看到表象：“支付服务启动失败”。但真正的根源在哪里？Agent 向 MemoX 发起一个关联查询。图引擎开始在记忆网络中穿梭，它清晰地揭示了这样一条隐藏的关系链，并找到相关联的关键信息，如下图 6 所示：

图 6

传统模式下，当支付服务报警时，运维人员需要登录跳板机，查看支付服务的日志，发现它依赖的用户认证服务挂了。再去找负责认证服务的团队，他们查日志，发现是健康检查失败。再查监控，可能发现是某个配置变更导致的。这个过程可能需要跨越多个团队、查询多个系统（日志系统、监控系统、Git 历史），耗时几十分钟甚至几小时。图引擎将这条长达五步的因果链瞬间呈现，让 Agent 得以洞察藏在表象之下的真正根源。

KV Cache 引擎用于处理当时与即时。其毫秒级的热数据存取，作为 Agent 的工作记忆在合适不过。在智能编码领域，一个代码生成 Agent 正在根据需求编写一个复杂的算法。在它的脑海中，必须时刻保持对几个关键信息的瞬时访问：用户的原始需求描述、目标数据库的表结构、以及刚刚生成并通过测试的上一个函数签名。这些信息在任务执行期间会被频繁、反复地调用。将它们存入 KV 缓存，就如同置于一块数字便签上，确保 Agent 在需要时能以近乎零延迟的速度获取，从而保证了其思考过程的连贯与流畅。

通过这套组合拳，MemoX 能同时理解“内容像什么”（向量）、“事物如何连接”（图）以及“眼下最重要的是什么”（KV 缓存），从而提供远超任何单一扁平检索系统的记忆深度与效率。

Karpathy 最近分享了一个很有意思的理念，人类糟糕的记忆，是一种特性，不是缺陷。AI 记得一切，却学不会抽象。人类遗忘很多，却能举一反三。记忆不是静态的，而需要动态演化，需要借助包括检索、推理这类“举一反三”行为更好的 强化认知核心。当对话过长时，我们可以触发 LLM 对近期内容生成摘要，用精炼的摘要替代原始冗长的文本，释放上下文空间。不仅如此，MemoX 会定期回顾已有的记忆，结合记忆使用的情况，将信息进行抽取、整合，以提升记忆的准确性和访问效率。

记忆代表了 Agent 系统的知识库，一个真正“聪明”的记忆系统，应该具备自主学习的能力，能够从现实世界不断学习和更新自身的知识。MemoX 会通过外部交互工具，如 Agent Mesh 的智能连接器，适时地获取最新的知识，更新、纠正其认知。

另外，借鉴成熟的 Kubernetes Operator 开发经验，我们可以将 MemoX 打包成一个高可用的有状态服务集合。这实现了一键部署、故障自愈、在线扩容和数据备份恢复，将复杂的有状态服务运维难度降至最低，确保了 MemoX 在生产环境中的稳定性和可靠性。

灯塔三：零信任运行舱，典型代表 Agent Runtime

当整个行业都在为 Agent 的巨大潜力而兴奋时，一个普遍的实践鸿沟也随之出现。大多数团队试图用过去为确定性任务设计的工具，去驾驭充满概率性的 Agent。这带来了两个核心痛点：

控制流的错配

传统的 DAG 工作流引擎如同精密的流水线，为的是执行可预测、线性的任务。而 Agent 的“思考 - 行动”循环本质上是动态的、非线性的，更像一场即兴辩论。用僵化的“剧本”去指挥“即兴辩手”，不仅会扼杀 Agent 的自主性，更会在遇到意外情况时导致整个流程的脆弱与崩溃。

安全与信任的真空

LLM 驱动的 Agent，其行为尤其是生成的代码，具有不可预测性。让这样一个黑箱直接在不受控的环境中执行文件操作、发起网络请求，无异于将一个权限过高的实习生直接接入生产服务器。这种失控的风险，是任何严肃的工程团队都无法接受的。

面对这些挑战，我们发现问题的根源在于，大家普遍混淆了宏观的战略协作流与微观的战术执行环。战略协作流关乎团队目标是什么以及任务如何拆解和分配。战术执行环则关乎单个 Agent 如何独立思考、调用哪些工具来完成分配给它的任务。将这两者耦合在一起，用同一个引擎管理，是导致混乱和风险的根源。真正的解决方案，必须在架构层面将二者解耦。

基于以上洞察，我们需要提供一个专为 Agent 战术执行环设计的、完全托管的运行环境——Agent Runtime。它不再试图控制 Agent 的每一步思考，而是为其提供一个功能完备、安全隔离的智能工作室。在这里，Agent 可以自由地进行自己的“思考 - 行动”循环，而高层的协作系统只需关心它是否完成了任务这一最终结果。

做个类比，如果说宏观的协作编排系统是 Kubernetes Scheduler，负责决策。那么 Agent Runtime 就是每个节点上的 Kubelet + Container Runtime 的组合体。它接收上层指令，为单个 Agent 的执行提供一个标准的、安全的运行环境，管理其从启动、执行到终止的全过程。为了做到这一点，我们重点打造了其两大技术底座，如下图 7 所示：

图 7

事件驱动的状态机引擎

Agent Runtime 的核心是一个轻量化的状态机。它不预设 Agent 的执行路径，而是通过事件来驱动 Agent 的思考行动 ReAct 流程。当一个 Agent 需要调用工具时，Runtime 会捕获这个意图事件，在安全的沙箱中执行该动作，再将结果作为新的观察事件反馈给 Agent，触发其下一轮思考。这种设计完美拥抱了 Agent 的非确定性，提供了极高的灵活性。

纵深防御的安全沙箱

每个 Agent 实例都被严格限制在一个由 MicroVM 或者 WASM 构建的轻量级沙箱中运行。这意味着，默认情况下，Agent 无权访问任何文件系统、网络或系统资源。所有权限都必须被显式授予。这种零信任执行模型，从根本上杜绝了 Agent 行为失控带来的风险，确保即使 Agent 产生幻觉或恶意代码，其破坏力也会被牢牢地锁在笼子之内，为平台提供了企业级的安全保障。

灯塔四：开放生态平台，典型代表 AI Gateway

Agent 的价值在于它能够连接并操作现实世界的数字服务。然而，当我们试图将强大的 Agent 接入丰富的外部生态时，当下可能会立刻陷入一片混沌之中。这种混乱体现在三个层面：

模型的战国时代

如今的大模型领域百花齐放，从 GPT 系列、Gemini 系列、Claude 系列、DeepSeek 系列、QWen 系列，到其它各种开源及私有化模型，每个都有不同的 API 接口、计费模式和性能表现。直接在代码中与这些异构模型硬编码耦合，不仅会导致技术债堆积如山，更让成本优化和统一安全审计成为不可能完成的任务。

工具的认证噩梦

为了让 Agent 能够预订会议室、查询订单或者发送邮件，它必须持有并管理大量第三方服务的 API 密钥和凭证。这种密钥散落一地的模式，是一个巨大的安全黑洞。一旦 Agent 的 Prompt 或中间代码被泄露，所有关联服务的权限都可能瞬间失控。

边界的治理无序

每次对外部模型或 API 的调用，都意味着一次成本、一次潜在的延迟、一次数据交换。在缺乏统一管控的情况下，我们无法回答诸如“哪个业务消耗了最多的模型预算？”、“哪个第三方 API 是性能瓶颈？”、“我们的敏感数据是否通过 Prompt 泄露给了外部模型？”这类关键的治理问题。由此可见，Agent 与外部世界之间当前缺乏一个强有力的、统一的交互边界。我们必须在平台与生态之间建立一个“海关”来管理这种可能的无序，构建一个类似国家海关的中央枢纽 - AI Gateway。所有进出平台的请求，无论是调用外部大模型，还是使用外部工具 API，都必须经过这个关口进行检查、认证、记录和重路由。这个海关不仅保障了平台的安全，也极大地简化了 Agent 与世界沟通的方式。

对于 Agent 而言，AI Gateway 是统一的“五官”和“双手”。Agent 无需再关心每个模型、每个工具的具体接口细节和认证方式。它只需用意图（如调用模型服务）与 Gateway 交互，Gateway 会负责搞定剩下的一切。对于平台而言，AI Gateway 是坚固的“防火墙”和“审计署”，是平台与外部世界交互的唯一出入口。它集中解决了认证、授权、安全、成本控制和可观测性等所有关键的治理问题，为整个平台的稳定和安全提供了核心保障。既有 API 网关的路由、认证、限流能力，又具备多云管理平台那种对异构后端资源（这里是 LLMs 和 Tools）进行统一纳管和成本优化的能力。

图 8

如图 8 所示，整体上看，我们通过构建三维一体的 AI 网关能力中心，重新定义了企业 AI 服务的交付、管理与安全范式。AI 网关从单一通道，升维为集连接、增强、治理于一体的立体化能力中心。它主要由以下三部分组成：

模型网关

这是访问所有 LLMs 的统一入口。它提供了四大关键能力：

智能路由与负载均衡

在生产环境中，团队往往会根据任务复杂性、成本、延迟、模型能力或法规等因素，动态地将请求路由到最合适的模型端点。

故障转移

当某个模型服务不可用时，自动切换到备用模型，保证业务连续性。当然，这个能力可以跟 Agent Mesh 联动，进行所谓的可靠性编排。

成本控制与统一缓存

对模型调用进行精细的预算管理和用量限制，并对高频、相似请求进行缓存，大幅降低整体调用成本。

Prompt 审计与合规

记录所有流经网关的 Prompt 和响应，用于安全审计、数据防泄露和持续的 Prompt 优化。

工具网关

相当于一个中心化的 企业工具市场。我们将所有外部 API 封装成标准化的工具并注册到此处，同时提供。

统一认证与授权

Agent 不再直接持有任何 API 密钥。所有的认证凭证都由网关集中管理和安全存储。它会基于 Agent 的身份和任务上下文，动态地为其赋予临时的工具使用权限。

Schema 适配与安全代理

网关负责将外部多样化的 API 接口规范，适配成 LLM 易于理解的统一格式，并作为安全代理执行所有调用，避免 Agent 直接暴露在公网上。

联邦网关

随着多 Agent 系统在企业内外的普及，可以预见，Agent 技术的终局绝非孤立的企业大脑，而是会演化为一个跨越组织边界、可互操作的智能互联系统。这不禁引发了我们一个终极的思考：如何在没有中央权威的开放网络中，建立 Agent 之间的信任？为此，我们提出了联邦网关这一核心概念，它尝试解决这个数字世界中的信任外交，最终演变为一个支持去中心化身份与可信数据交换的协议网关。为此，我们为联邦网关提供以下核心功能，用来构建下一代 Agent 互联的基础设施：

去中心化身份标识

我们将为平台上的每一个 Agent（甚至每一次重要任务）分配一个全局唯一的、由组织自身控制的 ID。这就像为每个 Agent 颁发了一个加密的数字护照。这个护照不依赖于任何第三方身份提供商，其所有权和控制权牢牢掌握在企业自己手中。当一个 Agent 需要与外部 Agent 交互时，它出示的是自己的 ID，而非易于被伪造的简单 API Key。

可验证凭证 VC（Verifiable Credential）

光有护照还不够，还需要证明这个护照持有者的资格和授权。可验证凭证技术就扮演了这个角色。AI Gateway 可以为 Agent 颁发经过加密签名的 VC，用以证明其身份、能力或授权。当 Agent 向外部伙伴发起请求时，它可以出示这些 VC。对方的网关可以通过密码学验证这些凭证的真实性和完整性，而无需反向查询我们的系统，从而建立起高效、可信的零知识证明式交互。

通过集成上述能力，联邦网关实现了从 基于密钥的认证到 基于密码学信任的授权的根本性升级。

灯塔五：智能观测平台，典型代表 Agent Insight

在生产环境中运行 Agent，开发者和运维人员很快会发现他们正面临一个前所未有的挑战。传统应用性能监控 APM 工具，在 Agent 面前几乎完全失效。在过去，当一个传统服务出错，我们可以通过堆栈信息和日志精确定位到出错的代码行。但当一个 Agent 给出了错误的答案或采取了非预期的行动时，我们看到的是什么？

APM 视角 - 服务正常，对 OpenAI API 的调用返回了 200 OK。
日志视角 - 一堆无序的、非结构化的 Prompt 和 JSON 输出。
开发者视角 - 我不知道它为什么会这么想！它上一步还好好的，怎么下一步就精神错乱了？

Agent 的内部决策过程，就像一个无法打开的黑盒，充满了不确定性。我们无法追溯其心路历程，无法诊断其思维谬误，更无法量化其决策成本。这种失控感是阻止 Agent 大规模应用于生产环境的最大障碍之一。传统的可观测性关注的是代码执行，而 Agent 时代的可观测性必须升级到关注认知过程。我们不能再满足于监控 CPU 和内存，我们必须能够监控 Agent 的思考、决策和学习，必须能将 Agent 内部抽象的思考 - 行动循环，转化为一个具体可度量、可追踪的工程实体。我们更需要为 Agent 的思维链配备一个飞行记录仪 Flight Data Recorder，类似 JDK 自带的针对 Java 应用的诊断与分析工具。

为此，我们构建了 Agent Insight，一个专为 Agent 和 LLM 应用设计的全新可观测性解决方案。它的核心价值在于，为 Agent 的自主决策与执行链路提供了端到端的调用链追踪与行为归因能力，实现了从意图到结果的全流程可追溯性与可审计性。Agent Insight 是为 AI 量身定制的下一代可观测性平台。它将分布式链路追踪、时序度量和结构化日志的核心思想进行了深度融合与智能化升级，创造出一个统一的面向 AI 行为的分析平面。

图 9

如上图 9 所示，我们将数据采集探针深度植入到几大核心脉络 - AI Gateway、Agent Mesh、MemoX 和 Agent Runtime 之中。这种原生集成的方式，让数据采集不再是外部的、猜测性的，而是内在的、事实性的。针对 Agent 的核心驱动循环进行深度埋点，Agent 的每一次思考、每一次行动决策、每一次从环境中获取的观察，都会被自动捕获为一个结构化的事件，并携带一个唯一的 TraceID。这些事件串联起来，就形成了一条完整的、可视化的 心路历程轨迹。用户不再是面对一堆杂乱的日志，而是能像看电影分镜一样，清晰地回顾 Agent 从接收任务到得出结论的全过程，洞悉其每一步的所思所想。

当 Agent 的行动需要与外部世界交互时，请求会携带 TraceID 流经 AI Gateway。AI Gateway 在执行请求的同时，会将关键的性能与成本指标，如 Token 消耗、模型调用延迟、API 执行成本、外部服务状态码等与这个 TraceID 进行关联，并回写到 Agent Insight 的数据中心。最终，开发者获得的是一个前所未有的上帝视角。在可视化的 AI Trace 上，他们可以：

点击任何一步思考，立刻看到其关联的 Token 成本和金钱花费。

筛选出所有高延迟的行动，快速定位是模型响应慢，还是某个第三方工具 API 成为了瓶颈。

对比两次任务的 Trace，一次成功一次失败，清晰地看到是哪一步的思考或观察出现了分歧，从而实现 A/B 测试和根本原因分析。

Agent Insight 让调试 Agent 不再是猜谜游戏，而是科学的诊断分析，为 Agent 在企业中的可靠运行提供了最后、也是最关键的一块拼图。最近在硅谷创投圈一些新的研究方向如上下文可观测也被大家普遍提到，哪些输入能持续提升输出质量，哪些上下文会导致模型幻觉等等，这些问题当前还都处于摸索阶段，这也是 Agent Insight 后续需要重点关注与解决的。

4小编结语

当下，企业对 AI 的价值预期从探索走到现实价值，与企业期待形成对比的是，AI 原生应用的大规模落地仍然面临诸多的挑战。一个具备强大认知能力的大脑，并不总能独立解决现实世界中的问题。而承载着大模型与 AI 应用运行的基础设施，是 AI 融入产业的关键基础能力。纵观全文，文章所描绘的 AI 原生应用基础设施蓝图 - 无论是作为流量入口的 AI 网关，还是保障 Agent 可靠运行的观测与治理体系 - 其核心价值都 在于将 AI 系统的复杂性与不确定性进行封装，为上层业务应用提供稳定、高效、安全的调用接口。

图 10

如上图 10 所示，这，实质上就是在重新定义和构建属于 AI 时代的中间件与 PaaS 平台。它们不再是传统意义上的管道与容器，而是演化成了具备感知、决策和 治理能力的智能应用基础设施层。

展望未来，这一层的成熟度将直接决定 AI 原生应用的普及速度。我们期望和所有学术与产业从业者一道，打造开放、标准、高效的 AI 原生应用基础设施平台，让创新不再被底层的复杂性所束缚，共同开启一个真正由 AI 驱动的应用新纪元。

全球资本市场下半场 Infra 五大基建规模化数据库 Borg 城市应用智能体 Agent 模型记忆网关

上一篇：AI新闻日历：油价再迎调整，申城气温先升后降，上海职工带薪陪护假来了

下一篇：京彩阅游记｜运河“北上” 京彩启程北京两日游京彩旅行北京定制游攻略

还在拼命加 GPU？AI 应用规模化的下半场，拼的是这五大软件“新基建”

相关内容

热门资讯