当前,尽管云端大模型的算力不断突破上限,但AI技术的下一次重大飞跃,被普遍认为聚焦于边缘。边缘AI是AI的未来,不仅在于其集中了绝大部分的计算和推理过程,更在于其实时响应、安全隐私保护、成本等多方面的优势。
过去几年,手机、PC等领域已经陆续实现了AI赋能,然而,多数端侧AI仍难逃对云端的依赖,这种状况产生了复杂场景下响应延迟、高算力需求受供电和体积掣肘等众多痛点,尤其在超低能耗、成本敏感且极具碎片化的海量物联网场景中,这些问题或需求更为突出,极大制约了边缘AI的规模化发展。
如今,这一行业僵局迎来破局者。日前,深耕芯片设计服务及IP领域多年的芯原宣布与谷歌联合推出面向端侧大语言模型应用的Coral NPU IP,其设计面向始终在线、超低能耗的边缘AI应用,尤其适用于可穿戴设备。通过这次合作,谷歌的开源研究成果得以在商业化落地中形成完整闭环,从算法到芯片验证,推动端侧AI应用快速落地,更广泛的便携设备有望实现智能化的升级。
Coral NPU IP:为始终在线、低能耗的边缘AI应用而生
对于芯片设计商而言,为低功耗边缘设备注入AI能力,要么通过CPU,要么通过专用加速器。前者灵活、软件适配性高,但缺乏对AI负载的专用架构,往往无法兼顾性能与能效。后者ML效率高,但又缺乏灵活性且难以编程。此外,二者高度碎片化的软件生态下,开发者被迫使用专有编译器,无形中增加了学习门槛。
当前,传统的芯片设计思路普遍采用CPU+AI加速器结合的方式,但这种架构在处理实时在线持续性的AI任务时效率又较低,也无法有效应对超低能耗以及成本敏感的边缘AI场景。
Coral NPU则为行业提供了一种新思路,一种从底层架构到开发环境都遵循“AI为先”的设计理念:其基于开放的RISC-V指令集架构,不再以CPU为中心,而是将负责运行ML运算的“矩阵执行单元”置于架构核心位置,同时配备轻量级RISC-V RV32IM前端(简洁、可C编程的标量核),作为简单控制核心负责传统CPU功能,以及一个提供额外计算能力遵循RVV 1.0标准的向量执行单元(提供高并发数据处理能力),三种运算在同一ISA内紧密耦合,使整个架构底层实现了面向AI负载的优化。
这样的架构设计,带来的优势是实现了功耗与性能之间的高效平衡。其性能是每秒执行约 5,120亿次操作(512GOPS),而功耗则控制在毫瓦级别,这对于需要7*24小时运行AI功能且电池容量极其有限的小型AI设备而言,是一次重大飞跃。
此外,Coral NPU支持主流机器学习框架,如JAX、PyTorch和TensorFlow Lite(TFLite),并采用基于开放标准的工具,例如来自低级虚拟机(LLVM)项目的多级中间表示(MLIR),作为编译器基础设施,大幅简化AI开发从云到端的流程。
总结而言,Coral NPU在RISC-V基础上进行了AI能力的扩展,使其既可以做传统的CPU计算,又可以实现AI的矩阵计算,避免了传统独立CPU/NPU设计带来的系统复杂性、成本及数据迁移问题,解决了边缘AI设备生态严重碎片化的问题,同时也实现了更好的机器学习性能,显著降低了芯片厂商的研发设计门槛。
智能重塑:从AI眼镜到玩具
从底层架构,到开发环境,可以说Coral NPU专为超轻量、超低能耗、始终在线的边缘AI而量身打造。因此特别适合如可穿戴设备等具有轻巧、美观设计要求,且需要持续续航提供全天候AI体验的产品。
今年以来,在海内外龙头的积极布局和推动之下,智能眼镜在消费电子市场异军突起。但也普遍存在依赖云端AI能力,交互延迟以及价格高昂等问题。
行业看来,智能眼镜实现进一步发展取决于三个“重要指标”:重量30克以内、续航8小时以上以及价格2000元以下。而Coral NPU IP的推出,其面向AI优化的架构,以及在推动边缘设备小型化、低功耗和成本方面的优势,将有助于实现智能眼镜产品的体验提升与规模化落地。
比如,针对一些特定的使用场景,通过对于AI功能的裁剪,在端侧运行一些经过训练后的高效轻量级模型,便可以显著提升AI能力和智能化水平,从而加速产品技术创新,带来更好的使用体验,提高相关产品的差异化竞争力。
今年8月,谷歌宣布推出史上最小Gemma 3开源轻量级模型,只有2.7亿个参数。在其演示中,用Gemma 3驱动了一款使用Transformers.js的睡前故事生成器网页应用,只需要勾选几个选项,就能够生成精彩的睡前故事。
据悉,一些玩具厂商已经着手在产品中部署轻量级模型,从而实现智能化升级,面向儿童的教育陪伴以及成人的情绪价值提供。毫无疑问,这将对玩具和陪伴类产品及市场带来颠覆性的影响。芯原股份创始人、董事长兼总裁戴伟民在采访中向集微网表示,芯原内部也正在面向AI玩具、眼镜等海量应用市场微调小模型,同时也和相关领先机构展开合作,这样在针对这类应用推出定制化的芯片平台时,对算力的部署将更加有的放矢,做到性能、功耗、成本的最佳平衡。
因此,如果将Coral NPU以及Gemma 3应用到智能眼镜,结合特定的数据集针对性训练,针对垂直场景进一步细分,使其具备端侧实时翻译、拍照、音频处理等功能,已经能够覆盖大多数使用场景。这不仅有助于芯片和终端厂商快速把握市场机遇,推出差异化产品抢占市场身位,也能够加速智能眼镜等边缘AI设备的创新和规模落地,将端侧AI所具有的智能和服务尽快带到用户身边。
强强联手:推动边缘AI加速落地
戴伟民表示,芯原和谷歌在技术与生态打造方面的合作已有十余年历史。本次合作则源于谷歌在2023年发起的“Open Se Cura”开源研究计划。Open Se Cura是谷歌研究团队联合多个合作伙伴密切协作开发的开源框架,基于RISC-V架构,包含一套开源设计工具和IP库,目的是加速开发适用于小型设备的低功耗AI系统。
此次Coral NPU IP的推出,就是基于双方在该项目上的既有经验,也标志着谷歌开源技术与芯原在芯片设计和产业化支持上的持续深度携手。
目前,Coral NPU IP已在谷歌开发者网站开源,面向全球开发者开放。芯原将提供商业化的企业级IP版本,并结合自身丰富的IP储备以及芯片设计与验证能力,为客户的相关芯片(面向可穿戴、智能家居等领域)提供一站式定制等服务。
在NPU IP领域,芯原有着多年的深厚积累。目前,芯原神经网络处理器(NPU)IP已被91家客户用于其140余款人工智能芯片中,集成了芯原NPU IP的AI类芯片已在全球范围内出货近2亿颗。
今年上半年,芯原超低能耗NPU已可为移动端大语言模型推理提供超40 TOPS算力,并已在知名企业的手机和平板电脑中量产出货。最新一代NPU架构针对Transformer类模型进行了优化,既能高效运行Qwen、LLAMA类的大语言模型,也能支撑Stable Diffusion、MiniCPM等AIGC和多模态模型。此外,芯原NPU还与自有的众多处理器IP深度集成,形成包括AI-ISP、AI-Display、AI-VPU、AI-GPU、AI-DSP 在内的众多AI加速子系统解决方案。
而此次Coral NPU IP的推出,也将成为芯原NPU IP产品矩阵以及端侧AI芯片设计平台的重要组成部分,可在此基础上为客户定制面向更多超低功耗场景的端侧AI芯片设计方案,从而加速推动大语言模型在边缘端的部署。