Cell 计算医学前沿:“女娲模型”解码基因调控“语法”,AI 驱动生命科学新突破
日期:2025-07-09 20:46:46 / 人气:5

导语
高质量数据一直是 AI 驱动生命科学发展的关键瓶颈。近日,浙江大学郭国骥团队在《Cell》发表突破性研究,开发超高通量单细胞染色质开放测序技术(UUATAC-seq),并构建跨物种单细胞深度学习模型“女娲 CE”(NvwaCE),首次实现调控序列精准预测与疾病突变功能验证,揭示跨物种基因调控“语法”,为计算医学提供全新工具与思路。
7 月 10 日(周四)19:00-21:00,“计算医学研讨会”第二期将邀请郭国骥老师分享这一成果。“AI 驱动的计算医学前沿:从科学发现到数字孪生”系列研讨会由 DAMO 开发者矩阵与集智俱乐部联合主办,聚焦 AI 与生物医学交叉前沿。
作者:刘培源
论文地址:https://doi.org/10.1016/j.cell.2025.06.020
AI 驱动生命科学,高质量数据仍是核心挑战
AI 正深刻变革生命科学,尤其在多组学领域。近年来,AI 算法在蛋白质结构预测(如 AlphaFold)、基因功能解析(如 Enformer)等方面屡获突破。然而,实现生命系统的精准建模,需依赖覆盖多物种、多细胞类型的高质量数据。
在基因组与表观基因组领域,数据匮乏问题尤为突出。染色质开放状态决定了 DNA 能否被转录因子等调控蛋白识别结合,直接影响基因表达调控。染色质可及性分析技术(如 ATAC-seq)是揭示基因组功能的关键,但单细胞水平的 ATAC-seq 技术普遍存在通量低、灵敏度不足等问题,难以提供充足的高质量训练数据,制约了 AI 模型对基因调控机制的理解。
突破技术瓶颈:UUATAC-seq 实现超高通量单细胞染色质测序
浙江大学郭国骥团队开发的 UUATAC-seq 技术,首次实现单日内构建跨物种单细胞染色质图谱,为 AI 模型训练提供了坚实数据基础。
该技术通过“四轮条码标记”设计,结合创新的双端同型转座酶切与温控接头转换策略,显著提升了开放染色质区域 DNA 片段的捕获效率,同时避免细胞标签交叉污染。实验流程如图 1 所示:首先用特殊酶为细胞 DNA 打上初始标签;细胞混合后添加独特标签;通过温度控制精确加入第三个标签;最后通过 DNA 扩增加入第四个标签,完成单细胞染色质分析。
基于此技术,团队可在单日内完成数十万细胞核的染色质可及性分析,数据质量与通量远超现有单细胞测序技术,为后续 AI 模型训练提供了高质量数据支撑。
构建“女娲 CE”模型:从 DNA 序列直接解码调控“语法”
在高质量数据基础上,团队进一步开发深度学习模型 NvwaCE(女娲 CE),首次实现跨物种、跨细胞类型的单细胞调控序列精准预测。
“CE”指顺式调控元件(cis-regulatory element),即基因组中不直接编码蛋白质,但能调控基因表达的功能序列,决定基因何时何地被激活或关闭,控制细胞类型多样性。与以往侧重 DNA 序列相似性预测的模型不同,女娲 CE 直接从 DNA 序列学习染色质开放状态及调控模式,揭示隐藏的基因调控“语法”。
该模型采用多任务深度学习架构(图 2),核心由卷积网络 CNN 与残差网络 ResNeXt 组成,可捕捉 DNA 序列复杂模式与多尺度信息。输入固定长度(500 bp)的基因组序列,经特征压缩后,输出该序列在数万个单细胞核内处于染色质开放状态的概率。
性能评估显示,女娲 CE 在不同物种染色质开放状态预测中均达到高精度(AUROC>0.80,部分达 0.99),显著优于主流模型(如 scBasset 和 Transformer)。更重要的是,对未训练物种(如鸡、壁虎、蝾螈、斑马鱼),模型仍具强泛化能力,表明调控元件的“序列语法”比 DNA 序列本身更保守,揭示了脊椎动物基因调控的共性规律。此外,模型还能自动识别与神经、免疫、脂代谢等功能相关的序列模块,兼具高预测准确性与可解释性。
功能验证与精准医学应用:从预测到临床靶点设计
研究进一步探索了女娲 CE 在生物医学领域的应用潜力,尤其在疾病相关非编码调控元件突变效应预测方面表现突出。
团队选取 361 个与人类疾病密切相关的非编码位点,利用女娲 CE 预测突变功能效应,成功鉴定出 265 个关键变异位点,显著优于传统方法。更关键的是,通过基因编辑实验,首次在人体细胞中验证了 AI 精准预测的疾病治疗关键位点——胎儿血红蛋白基因 HBG1-68:A>G 的突变效应,为 AI 在临床靶点设计中的应用提供了实验证据。
跨物种调控规律:揭示生命系统的普适设计原则
研究还揭示了跨物种调控序列的共性规律。数据显示,不同脊椎动物的基因组中,调控元件数量随基因组规模扩增稳定增加(图 3),但单个调控元件长度相对稳定。这表明不同物种可能存在普遍的内在调控设计原则,为理解生命系统的进化与功能提供了新视角。
当前,AI for Science 正尝试从不同尺度解码生命系统功能信息。例如,Evo 2 模型从宏观尺度用大规模参数统一序列信息,ChromBPNet 则聚焦碱基尺度刻画调控关系。但这些研究受限于训练数据规模与类型,难以解决“单细胞—全基因组”交叉尺度问题。女娲 CE 模型不依赖 ENCODE 复杂数据体系,即可实现单细胞水平序列功能预测,理解隐藏的特异性调控规则,为跨尺度生命科学研究提供了新范式。
AI 驱动计算医学研讨会:共探智能医学前沿
生命科学与医学正经历智能革命,大语言模型与多智能体技术推动计算医学新范式形成,为精准医疗、疾病诊断等开辟新路径。然而,跨学科合作与方法论整合仍是重要挑战。
为此,DAMO 开发者矩阵与集智俱乐部联合主办“AI 驱动的计算医学前沿:从科学发现到数字孪生”系列研讨会,邀请国内外学者分享前沿进展。活动自 2025 年 7 月 6 日起,共设 5 大议题,免费报名,审核入群参与。
欢迎关注计算医学与 AI 交叉领域的同仁报名,共同推动生命科学与医疗健康的智能未来!
详情见:https://example.com (此处替换为实际报名链接)
作者:杏鑫娱乐
新闻资讯 News
- 运动品牌集体 “上车”,骑行赛道...07-09
- Cell 计算医学前沿:“女娲模型...07-09
- “大漂亮” 法案对美国各行业的影...07-09
- 市场新闻解读:通胀、海外扰动与...07-09