Nature多模态基础模型引领分子细胞生物学新纪元
DRUGAI高通量组学技术的快速发展带来了生物数据的指数级增长,这一速度往往超过了研究人员提取分子层面洞见的能力。在自然语言处理领域,大语言模型通过整合海量数据集构建统一模型,并在多个下游任务中展现出强大能力,为应对数据洪流提供了新思路。借鉴这一理念,研究人员设想构建多模态基础模型,并在包括基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学以及空间组学在内的多类组学数据上进行预训练。此类模型有望以前所未有的方式表征细胞的分子状态,描绘出细胞、基因与组织的整体图谱。
特定情境下应用这些基础模型的迁移学习能力,将赋能一系列关键任务,包括新型细胞类型识别、生物标志物发现、基因调控机制推断乃至虚拟...
more...
