伦敦玛丽女王大学团队打造首个全开源AI基础模型
创始人
2026-01-20 18:48:11
0

当医生拿着超声探头在患者腹部滑动,屏幕上显示的那些黑白图像对普通人来说可能只是一团模糊的阴影,但对医生而言却蕴含着丰富的诊断信息。不过,即使是经验丰富的医生,面对这些图像时也常常需要依赖多年的专业训练才能准确判断。现在,来自英国伦敦玛丽女王大学数字环境研究所的郑晓宇和格雷戈里·斯拉博等研究团队带来了一个令人振奋的消息,他们开发出了世界上第一个完全开源的超声图像分析AI基础模型——OpenUS。这项突破性研究发表在2024年11月的arXiv预印本平台上(论文编号:arXiv:2511.11510v1),为超声医学影像的智能化分析开辟了全新道路。

在医疗影像领域,超声检查就像是医生的"透视眼",它利用声波穿透人体组织,实时反馈内部结构的图像。与CTMRI这些"昂贵的大家伙"相比,超声设备更像是医生随身携带的"瑞士军刀"——体积小巧、使用方便、成本低廉,而且对人体完全无害。正因为这些优势,超声检查已成为从孕期胎儿监护到心脏疾病诊断等众多医疗场景中不可或缺的检查手段。

然而,超声图像的解读却一直是个"技术活"。这些图像就像是用特殊墨水画出的抽象画,充满了斑点状的噪声(医学上叫"散斑"),组织之间的对比度也相对较低,不同设备、不同操作者、不同检查部位都会产生截然不同的图像效果。这就好比同一道菜,不同厨师用不同锅具烹饪出来的卖相完全不同,需要品鉴师具备相当丰富的经验才能准确判断菜品的优劣。

正是看到了这个痛点,研究团队决定开发一个能够"读懂"超声图像的人工智能助手。他们的目标很明确:创建一个既聪明又通用的AI模型,能够像经验丰富的超声科医生一样,快速准确地分析各种超声图像,并且这个模型必须是完全开放的,让全世界的研究者和医疗机构都能免费使用和改进。

一、构建AI的"超声大脑":模拟人类视觉认知的巧妙设计

要让计算机像人类一样理解超声图像,研究团队首先要解决的是如何让AI"看懂"这些复杂的医学图像。他们选择了一种名为"视觉状态空间模型"(VMamba)的先进技术作为AI的"大脑架构"。如果把传统的图像识别AI比作只能看到局部细节的"放大镜",那么VMamba就像是一副既能看清细节又能把握全局的"智能眼镜"。

这种技术的巧妙之处在于它能够同时处理图像的局部特征和全局信息。当医生观察超声图像时,他们不仅会关注某个特定区域的细节(比如一个可疑的阴影),同时也会考虑这个区域与周围组织的关系,以及整个图像的空间布局。VMamba正是模拟了这种人类视觉认知的过程,让AI能够像医生一样进行"全局思考"。

然而,仅仅有好的"大脑架构"还不够,关键是如何训练这个AI大脑。传统的机器学习就像是给学生提供标准答案让他们背诵,但医学图像的标注成本极其昂贵,需要专业医生花费大量时间进行精确标记。研究团队采用了一种更聪明的方法——自监督学习,这就像是让AI通过"自主探索"来学习,而不需要人为提供标准答案。

二、独创的"师生互动"学习法:自适应掩码对比学习的创新突破

OpenUS最核心的创新在于一套名为"自适应掩码对比学习"的训练方法。为了让大家更好地理解这个概念,我们可以把它比作一个有趣的"师生互动"学习过程。

在这个过程中,研究团队设计了两个AI角色:一个"老师"和一个"学生"。这就像是在艺术学院里,经验丰富的教授指导初学者临摹名画。老师会告诉学生:"这幅画的重点在于主人物的面部表情,你应该重点关注这个区域。"而学生在实际临摹过程中会发现:"虽然老师说面部很重要,但我发现背景的阴影部分也很难画好。"

具体来说,"老师"网络会分析超声图像,识别出哪些区域在医学诊断中最为重要,就像有经验的医生一眼就能看出图像的关键部位。然后,系统会有策略地"遮挡"图像的某些部分(这就是"掩码"的含义),让"学生"网络尝试根据可见的部分来重建被遮挡的内容。

这里的巧妙之处在于"自适应"机制。系统不是随意遮挡图像,而是会综合考虑两个因素:老师认为重要的区域(基于医学知识的"自上而下"指导)和学生觉得困难的区域(基于重建效果的"自下而上"反馈)。这就像是一个优秀的教练,既会根据专业经验指导学员练习关键动作,也会根据学员的实际表现调整训练重点。

研究团队还设计了一个动态调整机制。在训练初期,系统更多依赖"老师"的专业指导,就像新手学画时主要听从老师的建议。随着训练的深入,系统会逐渐增加对"学生"反馈的重视程度,让AI能够发现一些连"老师"都可能忽略的细节模式。这种动态平衡确保了学习过程既有专业指导又能自主探索。

为了进一步提升学习效果,团队还引入了"全局-局部"视图的对比学习。这就好比让学生同时练习画整幅肖像画和画人物的局部特写,通过对比这两种不同尺度的练习来加深对绘画技巧的理解。AI在学习过程中会同时接触超声图像的全局信息和局部细节,这样既能掌握整体的解剖结构,又能识别细微的病变特征。

三、史上最大规模的开源超声数据集:汇聚42个数据源的"医学影像宝库"

要训练一个优秀的超声图像分析AI,就像培养一位见多识广的医生,需要让它接触尽可能多样化的病例。研究团队为此进行了一项史无前例的数据收集工作,他们从全球各地搜集了42个公开可用的超声数据集,总共包含超过30万张超声图像,涵盖了12个不同的人体器官。

这个数据收集过程就像是组建一个"全球医学影像联盟"。团队成员像考古学家一样,在Kaggle竞赛平台、Mendeley数据仓库、Zenodo开放科学平台、GoogleScholar学术搜索、GitHub代码托管平台以及ResearchGate学术社交网络等各个角落寻找高质量的超声图像数据。他们收集的图像涵盖了从胎儿发育监测到乳腺癌筛查,从心脏功能评估到甲状腺结节检测的广泛应用场景。

这种多样性的重要意义在于,不同医院使用的超声设备品牌不同,医生的操作习惯不同,患者的生理特征不同,这些都会导致图像呈现出不同的特点。就像世界各地的厨师虽然做的都是"红烧肉",但由于食材来源、烹饪器具、调料配比的差异,最终的成品会有着截然不同的色泽和质感。AI只有"品尝"过足够多种类的"菜肴",才能真正掌握"烹饪"的精髓。

更重要的是,研究团队坚持使用完全公开的数据源,这意味着其他研究者可以完全复现他们的工作。这种开放性就像是公布了一份详细的"食谱",让全世界的"厨师"都能学习和改进这道"菜"。相比之下,之前的一些研究虽然效果不错,但使用的是私有数据,其他人无法获得相同的"原材料",自然也就无法复现和验证研究结果。

四、多项任务的优异表现:从疾病诊断到图像分割的全能展示

为了验证OpenUS的实际能力,研究团队设计了一系列"考试"来测试它在不同医学任务上的表现。这些测试就像是医学院的期末考试,涵盖了疾病诊断和图像分割两大核心领域。

在疾病诊断方面,团队选择了两个具有代表性的测试场景。第一个是乳腺癌筛查,使用包含1560张图像的BUSI数据集,AI需要准确识别图像中显示的是良性肿瘤、恶性肿瘤还是正常组织。第二个是胎儿超声检查,使用包含12400张图像的胎儿平面数据集,AI需要识别图像显示的是胎儿的哪个身体部位(如腹部、大脑、股骨、胸部、宫颈或其他部位)。这就像是让AI当一名实习医生,在超声科轮转时能够快速准确地初步判断图像内容。

在图像分割任务上,团队测试了AI的"精细操作"能力。图像分割就像是让AI用虚拟的手术刀精确地勾勒出病变组织的边界。在乳腺病变分割测试中,AI需要在超声图像中精确标出肿瘤的轮廓;在甲状腺结节分割测试中,AI需要准确识别并勾画出甲状腺结节的边界。这些任务对精度要求极高,因为即使几个像素的偏差也可能影响医生的诊断决策。

测试结果令人振奋。OpenUS在所有测试任务中都展现出了优异的性能,特别是在与目前最先进的医学图像分析方法对比时,OpenUS表现得更加出色。在甲状腺结节分割任务中,OpenUS的准确度比之前的最佳方法提升了7.9%;在乳腺病变分割任务中,提升幅度达到了6.5%。这种提升虽然在数字上看起来不大,但在医学诊断领域,即使是微小的准确度提升也可能意味着更多患者能够得到及时准确的诊断。

更令人惊喜的是OpenUS在"少样本学习"方面的表现。在实际应用中,医院可能没有大量的标注数据来训练专门的AI系统。研究团队测试了OpenUS在仅使用20%、40%、60%、80%训练数据时的性能表现。结果显示,即使只有20%的训练数据,OpenUS仍能达到相当不错的诊断准确度,这就像是一个天赋异禀的学生,只需要听课时间的五分之一就能掌握大部分知识要点。

五、技术细节的深度剖析:创新算法的精妙设计

OpenUS的技术创新不仅体现在整体架构上,更在于许多精心设计的细节。其中最核心的创新是"自适应学习优先级"(ALP)评分机制。这个机制就像是一个智能的"学习规划师",能够动态调整AI的学习重点。

ALP评分的计算公式看起来很简洁:ALP = (1-α) × 老师注意力图 + α × 学生重建损失。这里的α是一个在0到1之间变化的权重参数,它会随着训练过程动态调整。在训练初期,α值较小,意味着系统更多依赖"老师"的专业指导;随着训练深入,α值逐渐增大,让"学生"的自主发现获得更多重视。这种渐进式的学习方式模拟了人类从"模仿学习"到"创新探索"的认知发展过程。

在掩码生成策略上,团队采用了"困难渐进"的训练方式。这就像是健身教练为学员制定的训练计划,初期以基础动作为主,随着体能提升逐渐增加高难度动作的比重。具体来说,在每个训练周期t,系统会选择rt比例的"重要"区域进行掩码遮挡,其余部分随机遮挡。这个比例rt会从初始的0.1逐渐增加到0.9,确保AI的学习过程既稳定又具有挑战性。

视觉状态空间模型(VMamba)的设计也颇具匠心。传统的视觉Transformer虽然效果不错,但就像是一个"近视眼",只能清楚地看到局部区域的细节,对于远距离的关联信息处理能力有限。VMamba通过引入状态空间机制,让AI拥有了"鹰眼"般的视觉能力,既能捕捉细微的局部特征,又能把握图像的整体空间结构。

团队还创新性地引入了"全局-局部"双视角学习框架。在训练过程中,AI会同时接收同一张超声图像的两种呈现:224×224像素的全局视图和96×96像素的局部细节视图。这就像是让AI同时用"广角镜头"和"微距镜头"观察同一个场景,从而获得更全面的理解。全局视图帮助AI掌握整体的解剖结构和空间关系,而局部视图则让AI能够识别细微的病变特征。

六、对比实验与性能分析:全方位验证模型优势

为了充分证明OpenUS的优越性,研究团队进行了大量的对比实验。他们将OpenUS与目前最先进的各种方法进行了全面比较,这就像是举办一场"AI超声诊断大赛",让各路高手同台竞技。

在传统监督学习方法的比较中,研究团队选择了ResNet50、ViT、VMamba等经典架构作为对比基准。这些方法就像是"科班出身"的医生,通过大量标注数据的训练掌握了基本的诊断技能。然而,OpenUS凭借其独特的自监督学习策略,在相同的测试条件下表现得更加出色。

与其他自监督学习方法的比较更能体现OpenUS的技术优势。SimMIM、DINO、DINOv2、iBOT等方法都是目前自监督学习领域的"明星选手",各自都有独特的技术特点。然而,这些方法大多是为自然图像设计的,直接应用到医学图像时往往"水土不服"。OpenUS专门针对超声图像的特点进行了优化设计,就像是一位专门研究超声诊断的专科医生,在自己的专业领域内表现出了明显的优势。

特别值得关注的是与医学影像基础模型的比较。USFM是目前超声影像分析领域的代表性工作,使用了200万张私有超声图像进行训练。虽然USFM在某些任务上表现不错,但OpenUS仅使用30万张公开图像就达到了相近甚至更好的效果。这就像是用更少的"食材"烹饪出了同样美味的"佳肴",体现了OpenUS算法设计的高效性。

DeblurringMAE是另一个针对超声图像设计的基础模型,它专门针对甲状腺超声图像进行了优化。在甲状腺结节分割任务上,DeblurringMAE确实表现出了一定的优势,这并不令人意外,因为"术业有专攻"。然而,OpenUS作为一个通用模型,在保持甲状腺诊断竞争力的同时,在其他器官的诊断任务上表现更加出色,体现了其作为"全能型选手"的价值。

七、标签效率分析:少量数据也能高效学习

在实际临床应用中,获得大量专业标注的医学图像往往是一个昂贵而耗时的过程。每张超声图像的准确标注都需要经验丰富的医生花费相当的时间和精力,这就像是请大厨亲自为每道菜写详细的制作说明。因此,一个优秀的医学AI系统必须具备"用更少的标注数据学到更多知识"的能力。

研究团队专门测试了OpenUS在不同标注数据量下的性能表现。他们模拟了实际应用中可能遇到的各种情况:当只有20%、40%、60%、80%的训练数据有专业标注时,OpenUS能够达到什么样的诊断准确度?

结果显示,OpenUS在"少样本学习"方面表现出了令人印象深刻的能力。即使在最极端的情况下——只有20%的训练数据有标注——OpenUS仍然能够在甲状腺结节分割任务中达到73.2%的准确度,在乳腺肿瘤分割任务中达到82.7%的准确度。这就像是一个聪明的学生,只听了五分之一的课程就能掌握大部分考试要点。

随着可用标注数据的增加,OpenUS的性能持续提升。当标注数据比例达到60%时,OpenUS在两个分割任务上的表现已经接近使用全部标注数据时的效果。这种高效的学习能力意味着医院可以用相对较少的专家标注工作量就能训练出高质量的AI诊断助手。

更重要的是,OpenUS在少样本学习方面的优势在与其他方法的对比中更加明显。传统的监督学习方法在标注数据不足时往往表现急剧下降,就像是没有足够练习的学生在考试中表现不佳。而OpenUS通过其独特的自监督预训练策略,已经从大量无标注图像中学到了丰富的视觉特征,因此即使在标注数据有限的情况下也能保持较好的性能。

八、深入的技术剖析:多重创新的协同效应

OpenUS的成功并非依靠单一的技术突破,而是多项创新技术的巧妙结合。研究团队通过详细的消融实验(ablation study)分析了各个技术组件的贡献度,就像是拆解一台精密机械,研究每个零件的作用。

对比学习与掩码图像建模的结合是OpenUS的核心创新之一。单纯的对比学习就像是让AI学会区分"这是苹果,那是橙子",主要关注整体的判别能力。而掩码图像建模则像是让AI学会"根据苹果的一部分推测整个苹果的样子",更注重对细节的理解。OpenUS将这两种学习方式有机结合,让AI既能进行宏观的分类判断,又能掌握微观的结构细节。

实验结果显示,仅使用对比学习时,模型在分类任务上表现不错(准确率89.7%),但在需要精确分割的任务上表现相对较弱(分割精度79.1%)。而加入掩码图像建模后,分割精度显著提升到82.7%,这证明了两种学习方式的互补性。

全局视图与局部视图的双重训练策略也发挥了重要作用。全局视图帮助AI理解图像的整体布局和空间关系,而局部视图让AI能够关注细节特征。这种设计就像是培养一个既有战略眼光又有战术技能的军事指挥官,既能统筹全局又能精确执行。

自适应掩码策略相比传统的随机掩码或纯注意力掩码都表现得更好。传统的随机掩码就像是闭着眼睛选择练习题,可能会浪费时间在不重要的内容上。纯注意力掩码则像是只听老师的建议,可能会错过一些老师也没有注意到的难点。OpenUS的自适应掩码策略结合了两者的优势,既有专业指导又有自主探索,因此学习效果更佳。

九、技术实现的工程细节:从理论到实践的完整方案

OpenUS不仅在算法层面有所创新,在工程实现方面也展现了研究团队的专业水准。整个训练过程就像是精心编排的交响乐,各个组件协调配合,最终奏出和谐的乐章。

模型的训练采用了AdamW优化器,这是目前深度学习领域最先进的优化方法之一。训练过程使用余弦学习率调度,就像是一个经验丰富的教练,在训练初期使用较高的强度快速提升能力,随着训练深入逐渐降低强度以精细调整性能。整个预训练过程需要150个训练周期,使用4块NVIDIA GH200 GPU,这样的硬件配置确保了训练的高效性。

在数据处理方面,团队采用了多种数据增强技术,包括随机水平翻转、颜色抖动、高斯模糊和曝光调整等。这些技术就像是让AI在各种不同的"光照条件"和"拍摄角度"下学习识别图像,提高了模型的泛化能力。

掩码比例的设置也经过了精心调试。研究团队测试了60%、70%、80%、90%等不同的掩码比例,最终发现80%是最佳选择。这个比例既确保了学习任务的挑战性,又避免了因信息不足而无法有效学习的问题。

动量系数λ被设置为0.996,这控制了教师网络参数更新的速度。这个值的选择就像是调节"师生互动"的频率,既要让老师能及时传授新知识,又要避免变化太快导致学生跟不上进度。

十、开源贡献与未来展望:推动医学AI的民主化

OpenUS最大的价值不仅在于其技术创新,更在于它的完全开源特性。这种开放性就像是把一个珍贵的医学知识库无偿分享给全世界,让更多的研究者和医疗机构能够受益。

与之前的一些研究不同,OpenUS的所有训练数据都是公开可获得的,所有代码都在GitHub平台上开源。这意味着任何感兴趣的研究者都可以完全复现这项研究,验证其结果,甚至在此基础上进行改进。这种透明性对于医学AI领域的发展至关重要,因为医疗应用对可靠性和可验证性有着极高的要求。

研究团队还提供了详细的技术文档和使用指南,就像是为这个"AI工具箱"配备了完整的说明书。即使是没有深厚技术背景的医疗从业者也能通过这些资源理解和使用OpenUS。

从应用前景来看,OpenUS的潜在影响是深远的。在资源有限的医疗机构,OpenUS可以作为医生的"智能助手",帮助提高诊断的准确性和效率。在医学教育领域,OpenUS可以成为医学生学习超声诊断的"虚拟导师"。在医学研究领域,OpenUS为其他研究者提供了一个强大的基础工具,加速新诊断方法的开发。

研究团队也指出了目前的一些局限性。首先,虽然OpenUS使用了大量公开数据,但这些数据的未来可用性无法完全保证。其次,训练这样的大型模型需要considerable的计算资源,这可能限制了一些机构的使用能力。不过,团队表示将继续优化模型效率,并探索在更少计算资源下训练高质量模型的方法。

展望未来,研究团队计划进一步扩展预训练数据的规模和多样性,并探索将超声视频和文本信息融入模型的多模态学习方法。他们还计划将OpenUS应用到更多的下游任务中,如医学图像增强、病变检测和疾病预后评估等,进一步验证和扩展其应用价值。

说到底,OpenUS代表的不仅是一个技术突破,更是医学AI发展理念的转变——从封闭走向开放,从竞争走向合作。这项研究证明了,通过开放共享的方式,我们可以更快地推动医学人工智能技术的发展,最终让更多患者从中受益。对于普通人而言,这意味着未来的超声检查可能会更加准确、快速和可靠,医生能够更早地发现疾病,制定更精准的治疗方案。虽然我们还需要更多的临床验证和技术完善,但OpenUS已经为我们展示了医学AI的美好未来图景。

Q&A

Q1:OpenUS和传统的医学图像分析AI有什么区别?

A:OpenUS最大的不同在于它采用了自监督学习方法,不需要大量的专家标注数据就能学习。传统AI就像需要老师手把手教的学生,而OpenUS更像能自主学习的学霸,通过分析图像本身的特征就能掌握诊断技能。而且OpenUS是完全开源的,任何医院都能免费使用。

Q2:普通医院能直接使用OpenUS进行超声诊断吗?

A:目前OpenUS还主要是一个研究工具,需要一定的技术背景才能部署使用。不过研究团队提供了完整的代码和文档,有技术团队的医院可以基于OpenUS开发自己的诊断系统。未来可能会有更简化的版本供临床直接使用。

Q3:OpenUS的诊断准确率有多高?

A:在测试中,OpenUS在甲状腺结节分割任务中达到了82.7%的准确率,在乳腺肿瘤分割中达到91.0%的准确率。虽然还不能完全替代医生,但已经能作为很好的辅助工具。更重要的是,即使只有20%的标注数据,OpenUS仍能保持70%以上的准确率。

相关内容

热门资讯

飞荣达涨2.84%,成交额9.... 来源:新浪证券-红岸工作室 1月9日,飞荣达涨2.84%,成交额9.72亿元,换手率7.55%,总市...
股市必读:美登科技(92022... 截至2026年1月19日收盘,美登科技(920227)报收于77.66元,下跌3.95%,换手率14...
GNOME桌面环境在openK... IT之家 12 月 16 日消息,据开放麒麟 OpenAtom openKylin(以下简称“ope...
红参怎么吃才有效?从功效、适用... 你是否常常感到疲惫乏力,明明吃了红参却不见起色?或许不是红参没用,而是你吃的方法不对。红参,作为人参...
原创 D... 南韩女团NewJeans前成员Danielle去年被所属公司ADOR宣布开除,今(12)日她在社群开...
知名女子组合成员宣布退出,上个... 3unshine组合是知名的三人女子流行乐组合,曾因独特的风格给人留下深刻印象。2022年,成员Ci...
山东道恩高分子材料股份有限公司... 证券代码:002838 证券简称:道恩股份 公告编号:2026-001 山东道恩高分子材料股份有限公...
原创 D... Doinb带3位LOL选手打dota2,被对方虐泉,还被嘲讽是人机,对Doinb来说,这段时间的直播...
每周股票复盘:迪安诊断(300... 截至2025年12月31日收盘,迪安诊断(300244)报收于15.85元,较上周的15.71元上涨...
原创 马... 12月11日,在菲律宾总统府,菲律宾总统马科斯会见了中国新任驻菲大使井泉,并亲自接过了中国递交的国书...