AI看病遇上真人会“掉链子”?
创始人
2026-02-11 15:20:21
0

当大语言模型在医师资格考试中都能取得高分时,人们曾期待它能成为贴身的“AI健康助手”。然而《自然·医学》发表的一项在英国展开的研究表明,这些实验室里的“优等生”在面对真实用户时,表现却有可能意外“掉链子”——它们协助普通人作健康决策的效果,并未超越互联网搜索引擎。这项发现为当前火热的AI医疗应用,敲响了一记科学的警钟:人们会不会高估了当前大语言模型辅助普通人作健康决策的能力?

当前全球医疗体系正尝试将大语言模型打造为公众的“第一道健康防线”,帮助人们在就诊前进行自我评估与管理。然而,该研究揭示了一个关键落差:在标准测试中表现优异的AI模型,一旦面对真实场景中的普通人,其表现可能大打折扣。

牛津互联网研究所科学家设计了一个贴近生活的实验:邀请近1300名英国参与者,模拟应对感冒、贫血、胆结石等十种常见健康场景,并决定该采取何种行动——是拨打急救电话,还是预约家庭医生。参与者被随机分配使用三种主流大语言模型(GPT-4o、Llama3或Command R+)之一,或使用互联网搜索引擎作为对照。

结果出现了有趣的“人机鸿沟”:当不用人类受试者进行测试时,AI表现非常出色,平均能识别94.9%的疾病,并在超过半数情况下给出恰当建议。但当普通人使用相同模型时,疾病识别率骤降至不足35%,行动建议准确率也低于45%,甚至未显著优于互联网搜索引擎。

科学家进一步分析对话记录,发现了两组典型的“沟通盲区”:普通人往往难以准确、完整地描述症状,而AI偶尔也会生成看似合理实则具有误导性的回应。这种双向的信息偏差,让原本在测试中表现优秀的模型在实际应用中打了折扣。

这也表明,当前的大语言模型若直接应用于公众健康咨询仍需谨慎,因为在真实的人机互动中,存在大量实验室测试无法预测的复杂性。AI医疗助手的发展不仅需要技术迭代,更需要深入理解:当健康遇到焦虑,当专业术语遇到日常表达时,人与机器该如何更好地“对话”。(记者 张梦然)

本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有。如因无法联系到作者侵犯到您的权益,请与本网站联系,我们将采取适当措施。

相关内容

热门资讯

安全护航优服务 龙门石窟新春活... 来源:环球网春节临近,为迎接四海宾朋,龙门石窟景区聚焦旅游服务提质与游览体验升级,以“防风险、除隐患...
马斯克酝酿在月球造AI卫星工厂 每经AI快讯,当地时间2月10日,马斯克在其人工智能公司xAI的全体员工会议上描绘了月球卫星工厂蓝图...
神州答卷丨文旅新潮涌三晋   新华网太原2月11日电 题:文旅新潮涌三晋  山西,现有全国重点文物保护单位总数全国排名第一,拥...
北京市属公园新春攻略来了!百项... 2月11日,北京青年报记者从市公园管理中心获悉,北京市属公园及中国园林博物馆新春游园环境已全部布置完...
中国模型为何会在AI视频上领跑 直到这次字节的Seedance2.0出圈,很多人才第一次真正意识到,中国模型在 AI 视频这条赛道上...
AI看病遇上真人会“掉链子”? 当大语言模型在医师资格考试中都能取得高分时,人们曾期待它能成为贴身的“AI健康助手”。然而《自然·医...
年味香港,开心开运!解锁专属亲... 当新年的第一缕阳光洒向维多利亚港,一场充满欢笑与惊喜的亲子之旅,正等待着您的家庭启程。香港,这座中西...
2026马跃新春:全球达人游中... 2026马年新春将至,入境游市场迎来高质量发展新阶段,海外游客从观光打卡转向文化深度体验,“反向春运...
海岛游、山水游、城市观光游 春... 记者从交通运输部海事局了解到,今年春运,全国水路旅客发送量预计3300万人次。春运一周以来,水上出行...