BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高
创始人
2025-10-24 08:53:39
0

IT之家 10 月 24 日消息,生成式 AI 的确在信息整理方面大有用处,生成的内容也常令人惊叹,但只要仔细一看,就能发现这项技术仍存在不少缺陷。

据外媒 Android Authority 今日报道,欧洲广播联盟(EBU)与 BBC 近日联合评估了 ChatGPT、Gemini 及 Perplexity 等多款 AI 系统在新闻摘要方面的表现。研究动因在于,现有约 15% 的 25 岁以下年轻人主要通过 AI 获取新闻

BBC 最初通过大规模问卷调查及六场焦点小组访谈收集公众对 AI 新闻工具的使用体验与看法,随后 EBU 将这项研究扩展至国际范围。

研究显示,约 42% 的英国成年人表示信任 AI 内容的准确性,年轻群体的信任度更高。不过,84% 的受访者认为,一旦出现事实性错误,将严重削弱自己对 AI 的信任。问题在于,这些系统的“不准确度”究竟为何,以及用户是否真的察觉到了这些错误。

结果显示,大多数 AI 生成的内容都存在问题。各模型整体表现差距不大,但 Gemini 成为明显“异类”,不仅错误数量最多,严重错误的比例也远高于其他系统

研究指出,Gemini 的问题主要包括:缺乏清晰的资料来源链接、未能区分可靠信息与讽刺内容、过度依赖维基百科、缺乏足够语境,以及错误引用原文

在六个月的研究周期中,各大 AI 系统的表现都有改进,新闻摘要的准确率普遍提升,Gemini 的进步尤为明显。但即使如此,Gemini 的表现仍明显落后于其他系统。

IT之家附报告链接:News Integrity in AI Assistants

相关内容

热门资讯

江苏南京:千年文脉可触摸 来源:光明日报“到钟山寻马去!”清晨,江苏南京钟山风景区明孝陵景区内,明孝陵神道矗立600余年的石马...
3月3日双林股份跌5.31%,... 证券之星消息,3月3日双林股份(300100)跌5.31%创60日新低,收盘报33.02元,换手率2...
非遗活化焕新彩 河南新野推动文... 来源:环球网为传承省级非物质文化遗产,擦亮“猴艺之乡”金字招牌,推动文旅产业深度融合,2026年“春...
阿里千问Qwen3.5小模型开... IT之家 3 月 3 日消息,阿里千问昨日宣布开源 4 款 Qwen3.5 小尺寸模型系列:Qwen...
7.6万人打卡!豫南春节顶流在... 大象新闻记者 雷刚 通讯员 梁艳博马年春节档,确山县老乐山景区的年味太顶了,持续火爆,游人如织,热闹...
让AI分清前后左右的新方法!北... 你有没有试过让AI帮你画一幅画?比如,你告诉它:“画一张办公桌的图,笔记本电脑放在桌子中间偏左,咖啡...
济南观灯必看!花灯会景区周边将... 原标题:济南观灯必看!花灯会景区周边将开辟临时停车泊位来源:齐鲁网华灯初上映泉城,2026年2月14...
巴基斯坦政府引进阿里巴巴达摩院... 近日,阿里巴巴达摩院在巴基斯坦达成系列合作,与巴基斯坦首都医院(Capital Hospital)、...
倒计时100天“AI世界杯”白... 当2026年FIFA世界杯进入倒计时100天,这场覆盖三国16座城市、扩军至48支球队、历时39天的...
马斯克惊呼太强了!国产0.8B... 智东西 作者 | 李水青 编辑 | 心缘 智东西3月3日报道,昨日晚间,阿里开源4款Qwen3.5小...