“人类基因组计划”已于2003年完成测序,我们得到了生命的“天书”,却仍面临解读的困境。10月23日,第二十届国际基因组学大会上,华大生命科学研究院与之江实验室联合发布全球首个百亿参数可部署的基因组通用基础模型Genos,为破译这本“天书”提供了新钥匙。
与国内外同类模型相比,Genos的优势体现在解读能力与落地能力的双重提升上。
解读能力提升主要源于训练数据的扩容。现有模型多依赖1个至2个参考基因组,难以体现人类遗传资源的多样性。而Genos整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异图谱计划(HGSVC)等多个权威公开资源,首次将全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,有助于更全面理解人类遗传多样性,从源头提升了AI解读的质量。
落地能力提升则源于算法架构的设计。Genos通过“混合专家”架构,精准调度相关“专家”算法协同处理,在汇总百亿级庞大参数时成功降低推理成本和资源消耗,解决了大模型“好用难部署”的痛点。此外,Genos还是个开源模型,已在HuggingFace、魔搭等平台全面开源开放,提供12亿和100亿参数两个版本,满足不同需求。
临床测试结果也印证了Genos的真实能力:Genos在直接面向临床应用的致病性突变解读任务中,准确率达92%;结合科学基础模型后,准确率高达98.3%。多项综合评测结果显示,Genos超越现有最佳水平模型。
人类基因组由大约30亿对碱基组成。对这种大规模数据的解读分析,是AI大模型的拿手好戏。AI大模型可以重塑基因组研究与临床应用的节奏,助力科研、临床与产业的三重跃迁,发展前景广阔。
科研侧,AI让“大海捞针”成为“精准导航”,可以大幅度压缩寻找致病位点的周期,为罕见病、复杂病机制研究导航。
临床侧,AI让基因报告从“天书”变成“说明书”,可以自动生成患者能理解的文本,辅助医生完成快速、合规的临床级解读。
产业侧,AI让“试错式”研发转向“设计式”创新,可以大幅度降低实验迭代次数,为新药研发节约成本。
展望未来,人类基因组AI大模型的进一步发展还面临三重挑战。一是应持续扩充训练数据库,纳入更多疾病样本与遗传数据,提升复杂疾病解读能力。二是需建立更完善的伦理与安全规范,明确模型解读结果的临床边界,避免过度解读风险和隐私泄露风险。三是应加强跨学科协同,推动AI与临床数据系统、生物实验平台的深度融合,通过“AI预测+实验验证”的反馈迭代,持续优化模型性能。
让AI模型读懂生命之书,将加速精准医疗时代的到来,筑牢健康保障的防线。Genos的发布只是序章,未来谁能率先把人类基因组“读、思、写、用”四步闭环跑通,谁就能打开生命经济的下一扇大门。这需要大家的共同努力。只有学界、产业界、政策制定者和社会公众共同执笔,才能写出更普惠、更健康、更文明的未来篇章。(本文来源:经济日报 作者:佘惠敏)
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有。如因无法联系到作者侵犯到您的权益,请与本网站联系,我们将采取适当措施。