AI硬件的终极目标是“消失”,通过集成音频、视觉和传感器,硬件将成为AI实时感知世界的“感官”。
文|范凌
ID | BMR2004
AI原生硬件,并不是“在传统硬件上增加AI功能”,而是以AI为操作系统来设计硬件。
过去几十年的计算设备,本质上都是工具。用户通过界面操作设备,比如按钮、菜单、屏幕层级,交互的基本单位是“指令(command)”,用户需要明确告诉系统做什么。
但在AI原生时代,这个逻辑会发生变化。交互的单位会从“指令”转向“意图(intent)”。用户不再需要告诉系统具体的操作路径,而是表达自己想要的结果。AI再通过推理、工具调用和系统编排去完成任务,从设计哲学上看,AI原生硬件意味着一种转变,即从功能驱动的系统设计,转向意图驱动的系统设计。
01
从人理解机器转向机器理解人
当AI硬件去屏幕,或者减少屏幕时,交互方式会越来越接近人类的自然行为。
AI原生硬件的交互方式,与非AI原生硬件的交互方式,其本质区别总结为一句话就是:过去是人理解机器,现在是机器理解人。在传统计算机和手机时代,用户必须理解系统结构,比如应用、菜单和功能模块,然后通过操作完成任务,而在AI原生系统中,用户更多是在表达目标,例如“帮我记录这个会议”“帮我整理这些资料”。AI需要做的,是理解用户的意图,然后拆解任务并调用不同能力去执行。
交互结构因此发生变化:过去是人→UI→功能→执行;未来更像人→意图→ AI推理→Agent执行。在这个结构中,硬件更多是连接现实世界的入口,而AI负责理解和行动。
在如今的硬件发展中,去屏幕化已经成为一种趋势,当用户无法通过菜单表达意图时,会出现哪些全新的交互模式呢?当AI硬件去掉屏幕,或者减少屏幕时,交互方式会越来越接近人类的自然行为。这些交互方式有以下几种:
第一类是语音。语言本身就是人表达意图最自然的方式。
第二类是微动作,比如手势、头部方向或者细微动作。这些动作可以成为隐性的输入信号。
第三类是视线。当用户看向某个物体时,本身就表达了一种注意力。
第四类是环境上下文,例如时间、地点和用户当前的活动状态。
这些信号组合在一起,AI就有可能理解用户的需求。因此很多交互不再是用户主动操作设备,而是系统在理解场景之后做出合理推断。
目前AI眼镜在取代手机上的呼声越来越高,但短期来看,它很难完全替代手机,因为手机不仅是交互设备,也是内容消费设备、社交设备和工作设备。很多复杂任务仍然需要屏幕。但AI眼镜可能会承担另一种角色,它更像是一个实时的AI助手,用于理解环境、提供信息提示、记录内容、辅助决策。
未来是否会出现新的设备形态,取决于一个关键问题:AI是否能够足够准确地理解人的意图。如果AI能够做到,且用户几乎不需要操作设备,那么硬件形态确实可能会发生变化。
02
人们对AI的期待是能够识别“意图”
理解复杂意图的关键并不只是感知技术,而是对用户行为的整体理解。
人们对AI的期待是能够识别“意图”,但用户意图往往是模糊的。很多时候,人类自己也没有完全想清楚。
AI在理解意图时通常会结合三类信息:语言、上下文和历史行为。语言是用户直接表达的信息;上下文包括时间、地点和当前场景;历史行为则反映用户的习惯。在这个过程中,AI并不是寻找唯一正确答案,而是在形成一种合理的猜想。
科学研究其实也是类似的过程。科学进步并不是简单的“观察—归纳—得到真理”,而是“问题—猜想—批判—更好的猜想”。AI在理解用户意图时,本质上也是在不断形成和修正这些猜想。
理解复杂意图的关键并不只是感知技术,而是对用户行为的整体理解。AI需要把不同信号组合起来,例如语音、动作、环境信息等,然后在一个更大的上下文中理解它们的意义。这里的核心其实是上下文(Context)。当所有人都可以使用类似的大模型时,真正的差异往往来自上下文。模型产生智能,但上下文决定价值。意图识别的难点,很多时候也来自于上下文不完整。当系统对用户理解越充分,判断就越准确。
03
建立AI自主决策的可信度
一个理想的技术形态,是让用户忘记技术本身的存在。
用户希望拥有一个无感的交互方式,授权AI自主决策,但同时也会担心AI决策的结果偏离真实的意图,因而需要在“自主决策”和“请求确认”之间找到平衡。
一个常见的方法是基于置信度。如果系统对某个判断非常确定,就可以自动执行;如果确定程度一般,可以给出建议;如果置信度很低,则应该请求用户确认。这种方式可以在效率和安全之间取得平衡。AI系统需要在两个目标之间找到合适的位置:既要提高效率,也要避免错误带来的风险。
另一个问题是,当AI原生硬件抛弃屏幕后,用户如果想知道AI工作的状态时,系统需要全新的反馈方式,例如光效、振动或者定向声音,这些都可以成为一种环境反馈。比如呼吸灯表示AI正在处理任务,轻微震动可以表示操作完成,这些设计帮助用户理解系统状态,从而减少“黑箱感”。
总之,一个理想的技术形态,是让用户忘记技术本身的存在。
在PC时代,人们记得键盘和鼠标;在移动互联网时代,人们记得屏幕和应用。在AI原生时代,交互可能会重新回到人类最自然的行为,比如说话、观察、移动。当系统能够理解这些行为时,用户就不再需要“操作设备”。那时,硬件就会逐渐消失在体验之中。
04
美国头部投资机构对AI原生硬件的观点
硬件不再是廉价劳动力密集型产品,而是高毛利的“软件溢价”载体。
进入2026年,美国头部投资机构,如红杉、a16z、Founders Fund等,对AI原生硬件的观点已经从最初的狂热转向了更加垂直、注重物理验证和社交契约的务实阶段。
长期以来,硬件只是软件的载体,但在a16z (Andreessen Horowitz) 看来,硬件存在的目的是给AI提供更多上下文,AI获得的数据维度越高(音频、视觉、传感器),它就越有用。a16z强调,AI硬件的终极目标是“消失”,通过集成音频、视觉和传感器,硬件将成为AI实时感知世界的“感官”。这意味着,未来的交互将从“主动输入”转变为“被动感知”。而随着智能手机供应链的极度成熟,传感器和算力组件变得廉价且模块化,这种“溢出效应”将催生出一批具备AI原生灵魂的小众、垂直硬件形态。
红杉资本 (Sequoia Capital) 的观点认为,AI对硬件的真正变革,在于缩短了从原子到产品的“验证周期”。红杉认为,与纯软件不同,物理产品一旦出错后果严重。因此,他们强调AI在硬件开发中扮演的“验证层”角色,正在将传统的“设计—打样—测试”循环缩短数倍,并因此投资了Ricursive(加速芯片设计)和Nominal(硬件测试验证)等公司。红杉也警示,当前AI基础建设投入巨大,硬件端需要产生足够的应用收入来匹配基础设施的资本开支。
以彼得·蒂尔(Peter Thiel)为核心的Founders Fund则从社会工程学角度切入。他们认为,第一代AI硬件(如全时录音笔或摄像头)的失败,本质上是触犯了“社交契约”。成功的AI硬件必须在“全知全能”与“隐私尊重”之间找到精细的平衡。他们更青睐那些“只有在被需要时才介入”的硬件,而非全天候监控的监控器。
在更宏观的层面,Founders Fund认为,通过AI驱动的自动化机器人和无人机系统,硬件不再是廉价劳动力密集型产品,而是高毛利的“软件溢价”载体。但他们强调,AI硬件不应是“全天候监控”,而应遵循“社交契约”,只在用户主动触发时捕捉信息,解决可穿戴设备的社交尴尬感。
综合上述头部机构的观点,未来AI原生硬件将会呈现以下三大趋势:
去屏幕化(Screen-less):语音和视觉将取代触控成为第一交互,屏幕不再是必需品。
垂直化(Verticality):“通用硬件”正在被淘汰,能够解决特定场景(如翻译、户外运动、工业检测)的专用设备更受资本青睐。
反馈闭环(Data Flywheel):硬件存在的理由,是获取软件无法在云端获取的“第一手物理数据”,从而喂养更强大的私有模型。
(作者系特赞科技创始人及CEO范凌)
来源|《商学院》杂志4月刊