深度学习模型在科学研究中得到广泛应用,尤其在有限标注数据场景下,大规模预训练框架(例如ESM)促进了新任务的无缝整合,加速了建模过程。
化学反应是药物设计和有机化学研究的基本单位。近年来,数据挖掘的应用使深度学习模型能够处理化学反应。然而,现有方法在表示学习中忽略了有机化学的基本理论,例如电子效应和空间效应。本研究工作提出了一个通用的框架,结合了反应表示学习和分子生成任务,通过新的预训练方法,充分利用了有机化学机制,取得了在挑战性下游化学反应分类上的先进结果。
除了反应分类任务,基于化学反应的分子生成是一个重要应用。早期工作采用基于模板的分子生成策略,但这限制了可访问的化学空间。本研究工作提出和发展的方法不仅能生成合成可及的高质量分子,而且克服了传统模板方法的局限性,使药物研究者能够更灵活地编辑给定结构,尤其在药物设计的关键阶段。这一创新使药物发现能够聚焦于更广泛的化学空间,为大规模深度学习框架在化学反应相关领域的应用做出了创新性贡献。
该论文第一作者为北京大学药学院2018级长学制硕士生强博,通讯作者为刘振明研究员,张亮仁教授、宋颂研究员指导了本研究工作的开展,课题组周一然博士、丁宇恒、刘凝丰同学合作参与了该项研究。该项目得到了国家重点研发计划项目、国家自然科学基金、北京市AI健康培育项目和北大医学-望石智慧协同创新联合实验室的资助。
论文链接:https://www.nature.com/articles/s42256-023-00764-9
作者简介:
强博,北京大学药学院2018级长学制硕士生,研究方向主要为深度学习辅助化学分子的生成设计,已在Nat. Mach Intell, Nucleic Acids Res., Int. J. Mol. Sci. 等期刊上发表学术论文4篇,在Neurips,ICML等国际顶级机器学习会议上发表学术论文2篇;荣获研究生国家奖学金、北京大学第一届未名学士奖等。
刘振明,北京大学药学院研究员,博士生导师。主要研究方向为:(1)创新药物发现的新技术和新策略(2)AI药物发现新算法和模型建立。作为课题负责人和主要成员参加和完成了包括国家自然科学基金、863计划、国家科技重大专项,国家科技重点研发计划,北京市自然科学基金等在内的20多项国家科研项目。近五年以第一和通讯作者在包括Nat. Mach. Intell.、Signal Transduct. Target. Ther.、J. Hematol. Oncol.、Nucleic Acids Res.、Acta Pharm. Sin. B、J. Med. Chem.等期刊杂志上发表研究论文>70篇。主持和参与完成教材和专著编写5部。申请和获得中国发明专利>12项,计算机软件著作权证书>20件。中国化学会计算化学专业委员会委员,中国医疗保健国际交流促进会健康数据与数字医学分会常务委员,European Journal of Medicinal Chemistry和European Journal of Medicinal Chemistry Reports副主编。
天然药物及仿生药物全国555000a公海会员中心 供稿