DeepMind推出AlphaGenome:解码生命AI将成关键工具
6月26日消息,Alphabet旗下人工智能研究机构DeepMind正在将基因组学带入一个新纪元。通过推出全新AI模型AlphaGenome,DeepMind试图解答困扰生物学家数十年的问题:人类DNA的哪一部分在疾病形成中发挥关键作用,又是如何发挥作用的。
五年前,谷歌推出了AlphaFold,一款用于预测蛋白质三维结构的AI模型。该技术因其在生物学上的变革性贡献,去年荣获诺贝尔奖,并催生了以药物研发为目标的衍生公司Isomorphic Labs,同时带动了 AI制药创业热潮。而如今的 AlphaGenome,则试图回答另一个更基础但同样重要的问题:当DNA中的一个字母发生改变,会对基因表达产生怎样的影响?这种影响是否与健康或疾病有关?
与以往专注短序列或单一任务的传统模型不同,AlphaGenome可处理长达100万个碱基对的DNA片段,并实时预测涉及基因调控的多种生物学属性—包括基因起始位置、剪接方式、RNA表达量,乃至蛋白质结合的可能性。
这款模型不仅仅关注已知的、仅占基因组2%的蛋白质编码区域,更首次全面涉足基因组的“暗物质”—庞大却长期被忽视的非编码调控区域。这些区域被视为调控基因何时何地开启或关闭的关键所在,而正是这些位置往往藏着与癌症、罕见病甚至神经系统疾病密切相关的突变。未来,癌症或阿尔茨海默病等疾病可以更早被发现,更好地被理解,并实现更个性化的治疗。
全面预测的模型
DeepMind表示,AlphaGenome是目前首款能够在单一架构中整合长上下文与单碱基分辨率预测能力的AI系统。通过引入卷积网络与Transformer结合的架构,该模型实现了前所未有的精度和广度—不但预测准,而且预测的内容也更加全面。
在实际应用中,研究人员可以向模型提交一段DNA序列,并迅速获得关于该序列在不同组织和细胞中的调控活性评估。这种速度和效率,对于推动罕见病、癌症等领域的研究具有直接意义。
在一项案例研究中,AlphaGenome成功预测出白血病患者基因组中一处非编码突变可能导致癌基因TAL1被异常激活,其机制为引入了一个新的MYB结合位点。这一预测与已知致病机制高度一致,显示出 AlphaGenome 在揭示变异与疾病因果链条中的潜力。
效率与性能的跃升
据DeepMind披露,AlphaGenome在基因组预测领域的24项标准测试中,有22项表现超过现有最优模型。在突变效应预测任务上,26项中有24项表现持平或超越专门模型。
令人瞩目的是,AlphaGenome是唯一一款跨任务、跨模态实现联合预测的模型。此前,科研人员往往需借助多个模型来完成这些任务,如今只需一次API调用,便可获得全套预测结果,大大提升了研究效率。
更重要的是,在不牺牲性能的前提下,AlphaGenome的训练成本大幅下降—训练时间仅为4小时,所占算力资源为前代Enformer模型的一半。
迈向个性化医疗
尽管当前版本仅用于非商业科研,且尚未用于个人基因诊断,但其潜在意义不言而喻。AlphaGenome的预测能力将推动科学家更快识别关键变异,提升对复杂疾病的早期筛查和靶向治疗能力。“这项工作为精准医学奠定了基础,” 英国伦敦大学学院的癌症基因学教授马克·曼索尔(Marc Mansour)表示:“我们终于拥有了一种可以大规模评估非编码变异影响的工具,这是破解复杂疾病机制的关键。”
DeepMind也坦言,AlphaGenome并非全能。目前模型仍难以捕捉到距离目标基因10万碱基对以上的远距离调控信号。此外,不同细胞和组织类型间的差异性捕捉仍在优化中。更重要的是,它不能取代医学诊断—复杂性状和疾病往往牵涉发育、生理及环境因素,而这些尚不在AlphaGenome的建模范畴内。
不过对科研社区而言,AlphaGenome提供了一个统一、强大且可扩展的工具框架。随着更多数据的加入,它有望被扩展至其他物种,乃至未来支持临床应用。
本文来自“腾讯科技”,作者:无忌,36氪经授权发布。