Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab
创始人
2026-07-05 08:30:03
0

ComAct团队 投稿

量子位 | 公众号 QbitAI

当大模型开始“使用电脑”,我们似乎离真正的AI自动化又近了一步。

过去一年,从浏览器操作、表格填写,到办公软件自动执行任务,Computer-Use Agent正在成为大模型落地的重要方向。

但一旦进入真正的专业软件,这条路线很快遇到了瓶颈。

比如,让Agent在SolidWorks中完成3D建模与装配,在AutoCAD里绘制一张带尺寸标注的工程图,或者在Photoshop、Premiere里完成一套完整的修图、剪辑流程等,这些专业人员的日常工作,现有的Computer-use agent仍难稳定完成。

原因很简单:一方面,专业软件的界面远比日常软件更加复杂、密集,对Agent的视觉感知与定位能力提出了更高要求;另一方面,专业级任务往往不是几步点击就能完成,而是包含数十甚至上百个连续操作。一次微小的交互偏差,可能会在长链路中不断累积,最终影响整个任务结果。

近日,上海AI Lab等团队提出了一种面向专业软件智能体的新范式——ComAct(COM-as-Action)

它的核心思想在于:不再把鼠标点击和键盘输入作为Agent的action,而是让Agent直接生成COM代码,通过软件底层对象模型操纵真实专业软件。

专业软件Agent的核心瓶颈:不是不会规划,而是操作方式太脆弱

当前GUI Agent存在显著短板。以CAD软件为例,一个完整任务可能包括创建草图、设置约束、拉伸实体、编辑特征、装配零件、检查干涉、生成工程图、导出文件等多个阶段。每个阶段都涉及大量细粒度操作,而且强依赖前一步结果。

在这样的场景里,Agent不仅要理解任务,还要持续完成高精度视觉定位和低层交互。一旦选错工具、点错对象、输入错参数,后续步骤就可能全部偏离。

另一条路线是API/MCP-based Agent。它通过结构化接口调用完成任务,执行更稳定。但在真实专业软件中,公开API往往并不完整,不同软件之间接口差异巨大,很多商业软件也并不具有开源的API。

因此,专业软件Agent面临的并不是简单的“模型不够聪明”,而是GUI作为action space还不够适合这些任务,具体原因是:

GUI操作鼠标和键盘足够通用,但长程任务中容易受视觉定位误差影响;直接调用软件API更稳定,但常常受限于商用专业接口碎片化和功能覆盖不足,很难在工业软件中使用。

ComAct试图从另一个角度切入:既然很多重型桌面软件本身就暴露了系统级对象接口,为什么不让Agent直接使用这些接口?

GUI as Action依赖视觉定位,API/MCP as Action面临接口碎片化,而COM as Action将专业软件操作转化为统一的代码执行。COM:让Agent用“软件自己的语言”操作软件

COM,全称Component Object Model,是Windows生态中长期存在的一套组件对象模型标准。

大多数传统、重型专业软件都通过COM暴露内部对象和功能。

对于Agent来说,COM更接近软件内部语义。Agent不再需要在屏幕上寻找按钮,而是可以直接操作软件对象,例如CAD中的草图、零件、装配体,或Office中的文档、表格、幻灯片。其二,COM提供了更确定的执行方式。相比连续GUI点击,COM代码一旦生成正确,就可以直接调用软件功能,减少长程操作中的视觉定位误差累积。其三,COM具备跨软件扩展潜力。Office、Adobe、Autodesk、SolidWorks等大量Windows专业软件都不同程度支持COM,这为跨软件工作流提供了统一入口。

也就是说,ComAct把专业软件操作从:

看屏幕→找按钮→点鼠标

变成了:

理解任务→生成代码→执行软件对象操作

这正好匹配大模型最强的能力之一:代码生成。

在ComAct中,Agent每一步会看到当前软件截图和上一轮代码执行后的terminal输出。如果代码报错,它可以根据traceback修复;如果任务还没完成,它继续生成新的COM脚本;如果最终结果满足要求,它输出DONE。

这使得Agent不再是一个低层GUI操作者,而更像一个会写自动化脚本的工程师。

ComCADBench:让Agent真正进入CAD工程现场

为了验证这一范式,研究团队构建了ComCADBench,一个面向真实CAD软件操纵的benchmark。

ComCADBench覆盖3个CAD平台、7类工程活动,并支持长程多任务工作流。

它覆盖三款主流CAD软件:SolidWorks、Inventor、AutoCAD,以及七类核心工程任务:2D草图、3D建模、编辑、装配、工程图生成、质量属性分析和干涉检查。整个benchmark包含400条单任务与600条多任务流程,模拟真实工程场景中常见的任务组合,比如建模后分析物理属性、装配后做干涉检查等。ComCADBench直接基于最终CAD artifact进行评价,也更接近真实工程任务的评估方式。

ComForge:面向真实专业软件的大规模并行训练平台

真正训练一个能稳定操纵专业软件的Agent,需要让它在大量真实环境中反复试错、获得反馈。为此,团队搭建了ComForge。每个环境都是一个容器化的Windows虚拟机,内部预装SolidWorks、Inventor、AutoCAD等软件,Agent生成的代码会在其中真实执行,软件会真实返回截图和报错信息。一个异步调度器负责把任务分发到空闲的虚拟机上,让成百上千个环境同时跑起来,从而支持大规模评测与强化训练。

基于ComForge,团队训练出了智能体ComActor,通过结合监督微调与强化学习的训练流程,让模型从”能写出语法正确的COM代码”逐步进化到”能根据报错自我修正”,并进一步对齐最终CAD产物的工程要求。

ComAct主框架。包括数据构建、ComActor闭环执行,以及ComForge并行真实软件环境。GUI Agent受限,COM范式打开新局面

在ComCADBench真实CAD长程任务中,当前GUI Agent的表现非常有限。复杂界面、精细定位和多步骤依赖,使得GUI Agent几乎全线0分。但当action space从GUI切换到COM后,同样的模型在零样本设置下就能拿到非零、甚至可观的成功率。这说明大模型本身具备完成这些任务所需的推理能力,只是被传统GUI交互方式限制住了。

最终,训练后的ComActor在ComCADBench上全面匹敌GPT-5、Claude-Sonnet-4.6等参数量更大的模型,在需要多步骤接力完成的长流程任务上优势尤为明显;在两个外部通用CAD基准上,也展现出了不错的泛化能力。

相关内容

热门资讯

俞元古驿、明清旧县城二合一,玉... 云南玉溪有一处夹在星云湖与抚仙湖中间的小镇,常年被两湖秀丽风光盖住名头,很多游客路过只停下拍湖景,转...
特朗普用AI把自己雕在总统山,... 据@国是直通车,当地时间7月3日,特朗普在他的社交账号上发布了一段AI视频。视频展示了一座与总统山雕...
日本工业机器人企业押注AI,欲... IT之家 7 月 5 日消息,据日经亚洲报道,日本工业机器人企业正押注人工智能与开放式合作,以此作为...
AI引爆存储,江波龙上半年净利... 文 / 郭静 来源 / 节点AI 7月3日,A股存储龙头江波龙发布半年度业绩预告,2026年上半年...
2026上半年CVE漏洞榜单:... IT之家 7 月 4 日消息,科技媒体 Linuxiac 昨日(7 月 3 日)发布博文,报道称在 ...
【好评中国】东湖漫评丨何以让石...   你上一次去湖北的地质公园是什么时候?  是不是到里面逛一逛,看看石头,拍个照就出来了,没留下什么...
夏日荷花次第开,生机盎然美景来... 6月27日,临沂沂河岸边的滨河生态公园内,荷花竞相绽放。粉嫩的荷花点缀在碧叶之间,处处洋溢着生机,绘...
业内首个AI-eSIM产业协同... 据人民邮电报,7月3日,在中国信息通信业发展高层论坛上,由中国移动发起的业内首个AI-eSIM产业协...
原创 程... 文|唐辰 图|网络资料 可灵AI融到30亿美元,程一笑能笑了么? 7月2日晚,快手在港交所发布公告,...