苹果推出Ferret-UI Lite端侧AI模型:3B参数看懂复杂屏幕
创始人
2026-02-21 08:51:18
0

IT之家 2 月 21 日消息,苹果研究团队在最新论文中,推出展示 Ferret-UI Lite 端侧 AI 模型,仅有 30 亿(3B)参数,却在性能上匹配甚至超越了体积大 24 倍的大型模型。

IT之家注:Ferret-UI Lite 是专为移动设备打造的多模态大语言模型(MLLM),参数量仅为 30 亿(3B),属于典型的“轻量级”模型,可以在算力有限的手机端,精准理解与操作复杂图形用户界面(UI)。

不过在多项基准测试中,Ferret-UI Lite 的性能不仅追平,甚至超越了参数量高达其 24 倍的大型服务器端模型。

在核心技术方面,通用大模型往往难以看清手机屏幕上微小的图标和文本,而 Ferret-UI Lite 通过引入“推理时裁剪(Inference-time Cropping)”技术解决了这一痛点。

模型在处理任务时,会先进行一次粗略预测,然后智能地“剪切”并放大相关区域,就像人眼凑近观察细节一样,再次进行精准识别。这种策略让小模型无需处理海量图像数据,也能捕捉到界面中的关键信息,从而更好理解屏幕元素。

在训练方面,研究团队为了解决高质量训练数据匮乏的问题,构建了一套合成数据生成系统。该系统包含“任务生成器”、“规划器”、“执行者”和“批评者”四个角色,让 AI 在模拟环境中不断尝试操作、犯错并自我修正。

这种机制不仅生成了海量训练样本,还让模型学会了如何应对现实操作中的错误与意外情况(如点击无反应或弹出干扰窗口),其效果远优于单纯依赖人工标注的清洁数据。

测试结果显示,该模型在执行短流程、基础 UI 操作时表现优异,但在处理复杂的多步长任务时仍有提升空间。

最重要的是,Ferret-UI Lite 能够完全在本地运行,无需将屏幕截图上传至云端服务器,这在赋予手机“自动操作 App”能力的同时,最大程度地保障了用户隐私。

IT之家附上参考地址

相关内容

热门资讯

新春走基层 | 山城新春 别有...   新春佳节,走进山城重庆的防空洞,吃一顿热气腾腾的火锅、赴一场“星际旅行”、触摸一段历史——这些独...
光阴的故事丨十余载如一日 这间... 冬天的哈尔滨天气很冷,但是在冰雪大世界的南门外,始终都有一间温暖的小屋,每年从开园到闭园,这里都有一...
刷新深空探测极限!我国科学家用... 探索遥远暗弱的天体与结构,是破解宇宙起源演化、物质能量循环等科学谜题的关键。我国科学家基于计算光学原...
马年说马|从马背到铁轨 茶马古... 央视网消息:马,在历史上曾是重要的交通运输工具。位于云南普洱的那柯里曾是茶马古道重镇,如今,当马蹄印...
比干“开口说话”?新乡卫辉财神... 大象新闻记者 卢家民 韦佳喜 通讯员 李娟 陈强 卫辉融媒春节期间,新乡卫辉市比干庙景区化身为光影交...
微软发布AI内容组合溯源蓝图 ... 2月20日,微软向《麻省理工科技评论》分享一份“如何证明网络内容真实性”的技术蓝图,旨在应对AI造假...
苹果推出Ferret-UI L... IT之家 2 月 21 日消息,苹果研究团队在最新论文中,推出展示 Ferret-UI Lite 端...
老外纷纷打卡,边境小城迎来入境... 从大年初二开始,位于云南红河的河口口岸,迎来春节入境旅游和边境旅游客流双高峰。来自全国各地的游客与越...
灯影连山海 万家年味浓(文化中... 来源:人民日报自贡国际恐龙灯会的“万千气象”灯组。自贡市文旅发展集团提供自贡国际恐龙灯会大型灯组前,...
1 碗胡辣汤 1 幅糖画!曹魏... 2026年2月18日,农历正月初二,春寒尚未完全褪去,河南许昌曹魏古城商业街区却早已被滚烫的人气包裹...