电脑配置还不错的朋友,如果你的电脑里恰好还安装了Chrome,可能就得小心点了。
近日,计算机科学家Alexander Hanff公开发布报告称,谷歌的Chrome浏览器正在向符合条件的设备静默推送、并下载容量达到4GB的Gemini Nano模型。
Alexander Hanff通过macOS内核文件系统事件日志(.fseventsd)重现了这一过程,从目录创建到文件移动完成,全程仅用时14分28秒。而浏览器前台页面只是停留在普通的第三方网页上,可后台却启动了多个解压子进程,并将4GB的Gemini Nano模型权重文件写入用户配置文件目录下的OptGuideOnDeviceModel(设备端优化指南模型存储)文件夹中,其核心文件名为weights.bin。
海外科技媒体9to5Google也复现了这一操作,并且他们发现即使手动删除了weights.bin文件,Chrome往往还会在下一次合适的时机重新下载,甚至认为“用户的删除被视为需要纠正的临时状态”。
但有趣的是,谷歌公司的发言人并未对此道歉,还宣称该模型仅在设备满足硬件要求时才会下载,并且“如果设备资源不足,模型将自动卸载”。
更让人摸不着头脑的是,Alexander Hanff的测试结果显示,Chrome背着用户下载的Gemini Nano毫无意义,Chrome的“AI Mode”功能实际调用的是云端的Gemini模型,而非端侧模型。换而言之,用户被Chrome偷偷下载的这个AI模型完全是个摆设。
那么谷歌说好的“负责任AI”呢?在许多业内人士看来,谷歌的这一操作甚至比当初QQ在安装包里内置虚幻4引擎,更不把用户当人。
事实上,背着用户通过Chrome下载Gemini Nano,并不是某个管理层一拍脑袋的率性而为,而是为即将到来的“离线大模型”铺路。Gemini Nano本就是Gemini模型系列中的最小版本,专为在设备端运行进行了优化。然而自从Gemini问世以来,Nano版本就一直声名不显,外界也更关心性能更强的Ultra、Pro,或是更有性价比的Flash。
其实用户忽视端侧模型的原因也很简单,因为它往往只会做“特定的小事”,而且还不一定做好。毕竟为了让模型在有限的显存、内存条件下运行,模型厂商就不得不使用剪枝、量化、知识蒸馏来压缩参数,可结果是模型就只能做高度特定的任务,而且一旦任务稍微复杂,就开始“胡说”或是失效,真正有价值的决策、复杂推理、跨上下文理解统统都做不了。
当然,随着谷歌的多Token预测器(MTP)问世,端侧模型的这些缺陷也得以针对性补全。在谷歌方面公布的Demo中,MTP会利用闲置算力提前预测未来可能出现的多个Token,并且在不牺牲输出质量和逻辑能力的前提下,将模型的推理速度最高提升3倍,使得其无需在响应速度和计算精度之间二选一。
借助MTP,消费级显卡也能运行离线编程助手或智能体工作流。简而言之,谷歌方面认为MTP让端侧模型从“玩具”变成了“可堪一用”,AI也有了从云端推向个人计算终端的可能。这时候Chrome提前在用户电脑里预装的Gemini Nano,就可以实现提前卡位。
卡位实际上就是占坑,一旦用户的电脑里已经有了Gemini Nano,自然也就不存在GPT-5.4 mini、MiniCPM-V-2存在的空间。毕竟用户是懒惰的,当想要尝试端侧AI时,如果发现Gemini Nano已经不声不响地出现了,基本就不会再花时间去下载别的模型。
从某种意义上来说,当谷歌不再用“不作恶”来标榜自己,类似这样的操作也就不稀奇了。反正提前通过Chrome在用户的电脑里下载Gemini Nano,也是用户来买单,毕竟存储空间、流量、电费又不用谷歌来出。
当初有开发者在解释QQ为何选择直接在程序里塞进虚幻4时曾表示,“我干嘛要那么负责,我会有一分钱好处吗?”关于用户的设备谁做主这件事,几乎没有开发者关心。所以如果不想自己电脑的硬盘被谷歌白白占用,暂时弃用Chrome可能是最好的选择。