a tall building lit up at night

微软亚洲研究院

你真的了解计算生物学和AI for Science吗?

分享这个页面

编者按:近年来,计算生物学无疑是人工智能领域的一大热门话题。但,计算生物学究竟是什么?目前进展如何?未来又蕴藏了怎样的机遇?

近期,在量子位对撞派推出的“计算生物学”专题直播中,微软亚洲研究院副院长刘铁岩、首席研究员邵斌和主管研究员王童介绍了微软亚洲研究院计算生物学领域的最新研究,并对未来 AI for Science 的发展和融合进行了分享。

回放视频以及精华版文字内容如下,赶快一键收藏吧!

视频链接:https://www.bilibili.com/video/BV1r44y1s77i/

Q1:AlphaFold2的最大意义是什么?

A1:这个看似突破性的进展,其实是技术演进的必然结果。

此外,如果我们换个视角来看待这个问题,蛋白质结构预测仅仅是计算生物学这个大门类里面一个相对来说定义得比较清晰(well-defined)的问题。还有很多比蛋白质结构预测更加复杂也更有挑战性的问题,等着我们用人工智能的手段去推进。

Q2:我们认为应该如何去定义计算生物学这一个学科,它里面又会有哪些细分的领域和维度呢?

A2:从研究对象的角度,有宏观的,也有微观的。从微观的角度,可以小到一个蛋白、DNA 或者是一个单细胞。从宏观的角度,可以大到人类或者说生物体的组织、器官、个体甚至是群体。

从研究手段来讲,既有传统的生物实验,也有包括计算手段在内的数学建模、数值仿真、数据分析或者是机器学习。

从应用门类来讲,几乎和我们平时生活或者科学发展的方方面面都有关系,它既有在基础科学方面的潜力,也在制药诊疗方面有着巨大价值。

Q3:2021年,微软亚洲研究院首次针对新冠病毒中的 NTD 提出了对应的楔型模型,并鉴定了潜在的药物靶点。能否介绍一下这项工作是怎么基于计算生物学完成的呢?

A3:之前科学家们发现,新冠感染人体的物质叫 S 蛋白。我们可以把它想象成一个英文字母 Y,有两个枝杈,还有一个中轴。S 蛋白的中轴会固定在病毒的表面,而伸出的这两个枝杈(RBD 和 NTD),其中的 RBD 会和我们的受体蛋白发生识别,然后进入人体。

我们的研究主要围绕着机理还未明确的 NTD 展开。我们和清华大学计算生物学的老师通力合作,利用分子动力学模拟技术对整个 S 蛋白,全构象是百万级原子的巨大体系,进行了数十亿步的动力学平衡模拟。通过分子动力学,我们发现 NTD 就像一个开关,可以去控制另一个枝杈 RBD 是否能和人体的蛋白发生识别、结合。而 NTD 和 RBD 两者结合的界面,就自然形成了药物和疫苗设计的一个潜在靶点。

Q4:计算生物学算是一门交叉性非常强的学科,一方面是生物知识和人工智能的交叉,也就是所谓的 BT+IT。另一方面,也是干实验和湿实验的一种交叉。那请问几位老师是如何看待这两种强的交叉关系的?

A4:计算生物学是一个非常典型的交叉学科。这个交叉二字其实有几个不同的层次。

首先是知识层面上,有生物学、医学、药学、计算机科学,包括人工智能这些不同的知识门类的交叉。

还有一个研究方法的交叉,比如说传统生物学的生物实验,就是“湿实验”。计算机的模拟或者人工智能的手段,我们通常称为“干实验”。

更重要的其实是人才的交叉。因为在这个过程中会涉及到计算机的人才、生物学的人才。而最有趣的是,每个人其实都是有自己的个性的,甚至是有一些偏见的。当我们面对着一个新的课题或者一个新的事物的时候,通常会带入我们固有的一些思维。所以想要让交叉学科发展得非常好,我们就需要一个开放、包容、多元化的环境,让不同的知识做交融,让不同类型的人才去做碰撞,让不同的研究手段去进行互补或者形成某种闭环。

对谈嘉宾: 微软亚洲研究院副院长刘铁岩(左二),微软亚洲研究院首席研究员邵斌(右二),微软亚洲研究院主管研究员王童(右一)
对谈嘉宾: 微软亚洲研究院副院长刘铁岩(左二),微软亚洲研究院首席研究员邵斌(右二),微软亚洲研究院主管研究员王童(右一)

Q5: 是否存在哪些明显的瓶颈?

A5:高质量数据。尽管过去我们在生物学领域积累了大量的数据,但是高质量的数据仍然十分短缺。

从技术上来说,在做计算生物学的过程中,我们还是碰到了非常多的挑战。比如说,真正的蛋白质其实是处在一个非常复杂的细胞环境中的,这种微环境使得计算机的建模难度非常大。比如说在 NTD 的分子动力模拟中,就需要考虑到这个蛋白在人体内真正的环境是什么样的?是不是处在一个水溶液的环境里?是不是会有一些离子?在计算生物学的研究中,我们也要尽量地去仿照人体中真实的微环境,这可能是一个比较大的挑战。

那还有一个挑战是什么呢?在做计算免疫学的时候,其实每个人内在的免疫环境都是千差万别的。我们做一个 AI 模型,如果想在每个人身上都适用,取得很好的效果,也是很大的一个挑战。这也就是为什么我们要对每个人有一个更个性化的建模过程和解决方案。

还有动态变化的问题。

生命科学很特别的一点,就是它的研究对象是活的。比如说,人体每天应对着我们所在的环境,包括各种病源的侵扰,我们是不断地在进化、在变化中去抵抗它们的。所以当我们使用传统的机器学习或人工智能的手段去做了分析建模,很可能这个模型未来要使用的对象已经发生了变化。

所以当我们用人工智能的手段去解决这些生物问题的时候,怎么能够做更好的泛化外推,能够去解决和应对生物体本身的变化,这是一个非常有趣的问题,它不仅仅是对计算生物学有意义,对人工智能、对机器学习都是一个新的挑战。

Q6:那我们是如何看待 AI for Science 这种形式的?

A6:当我们用人工智能跟自然科学进行交叉的时候,其实有两个视角。

一个是我们已经知道了自然科学的规律,也产生了很多的数据,我们怎么用人工智能从里面学到某种模型去加速这个过程。

另一分支就是当我们能够有那么多的观测数据,这些数据可能是科学家们用肉眼分析不过来的。如果我们有很好的人工智能技术,我们能不能去通过大量的高通量数据分析,总结出一些现有的科学家还没有发现的科学规律,这个科学发现的价值可能比加速的价值更高。

Q7:在 AI for Science,这个具体的融合过程中,有没有什么经验和大家分享?

A7:人工智能带来了科学研究范式的转型。因为从计算机科学的视角看,现在很多的问题求解不再单纯依赖于人工的算法设计,而更多的是转成以数据驱动的模型构建。

此外,从基础科学研究的视角去看,传统基础科学研究更多是一种提出科学假设,然后验证科学假设的研究范式。随着大数据和人工智能的发展、普及和成熟,我们观察到越来越多的科学研究从假设推动的范式,走向了利用大数据和计算机技术挖掘科学洞见的这种数据驱动的科学研究范式。

从生物科学的角度出发,我们之前更多是基于专业领域知识(domain knowledge)的触发来做研究。通俗来讲,AI 其实只是作为一种计算手段扮演了配角的作用。更多是在有大量的生物学数据和生物领域知识的前提下,用一种非常简单的统计模型或者是机器学习来做简单的拟合。

但伴随着 AI 技术的发展和深化,AI 在 AI for Science 里逐渐变成了主角。它并不是只去对生物数据做简单的拟合,而是从 AI 入手去认识科学问题,即为科学问题量身定制一套 AI 的算法与开发。

但从另一方面来说,传统计算生物学的研究,更多是为了提升性能,也就是追求更高的数字。现在的 AI for Science 并不是这样。以 AI+药物设计研发为例,我们并不像之前一样只关注准确率,而更关注可解释性。比如说在药物虚拟筛选里,是潜在药物的哪些原子和我们的受体蛋白的哪一些残基、哪一些原子能发生相互作用,这个模型能否提供更好的解释性等等。

传统的自然科学领域有一个研究范式,就是科学家们受到实验数据的启发,然后大胆假说提出一套科学理论,再通过设计实验去进一步地验证这些理论或者推论。人工智能其实就是使传统科学家做研究的这种过程变得自动化、规模化、并行化。所以,如果我们说传统的自然科学的发展严重依赖于少数顶级科学家的智慧的话,在未来,有了人工智能技术的加持,我们相信有更多的科学工作者可以以更高的通量去做更了不起的研究。