BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高
创始人
2025-10-24 08:53:39
0

IT之家 10 月 24 日消息,生成式 AI 的确在信息整理方面大有用处,生成的内容也常令人惊叹,但只要仔细一看,就能发现这项技术仍存在不少缺陷。

据外媒 Android Authority 今日报道,欧洲广播联盟(EBU)与 BBC 近日联合评估了 ChatGPT、Gemini 及 Perplexity 等多款 AI 系统在新闻摘要方面的表现。研究动因在于,现有约 15% 的 25 岁以下年轻人主要通过 AI 获取新闻

BBC 最初通过大规模问卷调查及六场焦点小组访谈收集公众对 AI 新闻工具的使用体验与看法,随后 EBU 将这项研究扩展至国际范围。

研究显示,约 42% 的英国成年人表示信任 AI 内容的准确性,年轻群体的信任度更高。不过,84% 的受访者认为,一旦出现事实性错误,将严重削弱自己对 AI 的信任。问题在于,这些系统的“不准确度”究竟为何,以及用户是否真的察觉到了这些错误。

结果显示,大多数 AI 生成的内容都存在问题。各模型整体表现差距不大,但 Gemini 成为明显“异类”,不仅错误数量最多,严重错误的比例也远高于其他系统

研究指出,Gemini 的问题主要包括:缺乏清晰的资料来源链接、未能区分可靠信息与讽刺内容、过度依赖维基百科、缺乏足够语境,以及错误引用原文

在六个月的研究周期中,各大 AI 系统的表现都有改进,新闻摘要的准确率普遍提升,Gemini 的进步尤为明显。但即使如此,Gemini 的表现仍明显落后于其他系统。

IT之家附报告链接:News Integrity in AI Assistants

相关内容

热门资讯

“环球中国年”里的文化融合体验... ▲ 2026年春节期间的北京环球度假区,“环球绮愿金梅树”成为热门打卡点。 北京环球度假区供图当春节...
活动招募|专属 AI 实干者们... EPIC AI Founder Night 如果你也在做 AI、机器人、或者任何“还没被命名的新东西...
填问卷,免费获取:2026上半... 您好!为了深入了解旅游企业在AI技术应用方面的现状,我们特别发起本次调研。您的每一份反馈都将为《20...
从“观灯”到“玩灯” 达州“灯... 封面新闻记者 罗轩2026年春节,全省各地灯会、夜游、演艺等多元业态全面开花,城市的夜间文旅项目接待...
正月民俗狂欢持续上演,游客齐聚... 春节黄金周后,正月十五元宵节及其后续的民俗活动,成为撬动旅游市场的又一重要支点,有效延续黄金周热度,...
阿里再次开源千问3.5四款小尺... 3月3日消息,阿里巴巴昨晚再度开源千问3.5系列模型,这次是4款小尺寸模型。其中最小的0.8B 和2...
华为首次在海外展出全液冷AI超... 新榜讯 3月3日MWC 2026巴塞罗那展会期间,华为于海外首次展出全液冷AI超节点Atlas 95...
港股AI应用股反弹 MINIM... 截至发稿,MINIMAX-WP(00100.HK)涨9.97%、汇量科技(01860.HK)涨5%、...
AI产品榜:国内AI应用呈“千... 3月3日,AI产品榜发布全球AI应用最新数据。榜单显示,MAU(月活用户数)排名前三的AI应用分别为...