数字锁匠已经解码了生物学的分子钥匙
计算生物学家Bruno Correia过去在他的实验室中制定了一条规则:不允许机器学习。他认为这不是真正的科学。现在,Correia已将其用于检测蛋白质之间的潜在相互作用(蛋白质是复杂的折叠分子,负责许多生物过程),比传统方法快40,000倍。2020年2月,“ 自然方法 ”(Nature Methods)杂志刊登了他的系统封面。Correia在谈到他早期不愿接受机器学习时说:“我错了,很高兴我错了。”
是什么改变了他的想法?几何深度学习:人工智能的新兴子领域,可以学习曲面上的图案。
蛋白质通过将它们凹凸不平的形状像三维拼图碎片一样装配在一起来进行交互。研究人员花了数十年的时间试图弄清楚他们是如何做到的。自20世纪中叶以来,一直困扰着科学家的众所周知的蛋白质折叠问题试图通过解码蛋白质组成氨基酸与其最终3D形状之间的联系来理解蛋白质相互作用。1999年,IBM开始开发其Blue Gene超级计算机产品线,以解决折叠问题。20年后,DeepMind对其应用了最先进的深度学习算法。
Correia的系统称为MaSIF(分子表面相互作用指纹识别的简称),它通过忽略分子的内部结构,避免了蛋白质3D形状固有的复杂性。取而代之的是,系统扫描蛋白质的2D表面以寻找研究人员所谓的相互作用指纹:一种由神经网络学到的特征,表明另一种蛋白质可以结合在那里。“这个想法是,当任何两个分子聚集在一起时,它们本质上彼此呈现的就是那个表面。因此,这就是您所需要的,” 哈佛医学院的蛋白质研究员Mohammed AlQuraishi说,他也使用深度学习。“这非常非常具有创新性。”
MaSIF的用于预测蛋白质相互作用的以表面为重点的框架可以帮助加速所谓的从头蛋白质设计,该研究试图从头开始合成有用的蛋白质,而不是依赖于天然存在的蛋白质。伦敦帝国理工学院的几何深度学习专家Michael Bronstein说,但它也可以用于基础生物学。“癌症如何影响蛋白质特性?” 他说。“您可以问是否由于癌症而引起的突变是否破坏了蛋白质中的某些物质,从而使其不与预期的结合,从而以不同的方式起作用。[MaSIF]可以回答基本问题。”
如果您想了解深度学习如何产生蛋白质指纹,Bronstein建议您研究2000年代初的数码相机。这些模型具有的面部检测算法做得相对简单。他解释说:“您只需要检测一张脸”,即眼睛,鼻子,嘴巴,“不管它是长鼻子还是短鼻子,胖嘴唇还是薄嘴唇”。
现代相机功能更多。他们可以识别特定的人,使您可以快速搜索照片库以查找他们所处的所有照片。
深度神经网络使这一进步成为可能,它为计算机提供了一种从训练数据中学习个人细微特征的方法。该过程涉及将特定面孔的许多实例馈送到网络,并将它们标记为同一个人。您不必事先告诉计算机哪种属性的确切组合—绿眼睛,大眉毛,黑发—以某种方式加到您自己的脸上,而不是别人的脸上。取而代之的是,借助足够正确标记的示例,网络可以自己学习区别。
MaSIF对蛋白质也做同样的事情。交互指纹的先前方法类似于基本的面部检测算法。他们要求研究人员预先定义某些几何图案(例如,具有特定形状和大小的蛋白质表面上的颠簸斑块),然后搜索匹配物。相比之下,MaSIF从已知与蛋白质相互作用相关的少数基本表面特征开始:例如,表面的物理曲率(进入旋钮或口袋),其电荷以及是否排斥或吸引水。然后,在训练过程中,网络将学习如何将这些功能组合成可检测不同高级模式的指纹。
直到最近,这种机器学习还不能用于蛋白质弯曲,不规则的表面。几何深度学习的兴起开辟了可能性。Correia赞扬Bronstein在2018年2月在Bronstein家中进行的为期两周的合作中引起了他的注意。“完全是他,”位于法国洛桑联邦理工学院的Correia说。“我们手工制作的描述符毫无用处。”
该系统的一个版本称为MaSIF-site,可以检查蛋白质的整个表面并预测另一种蛋白质最可能结合的位置,这种方法类似于在弯曲的画布上绘制目标。“这就是我们所说的单身问题,” Correia说。“您可以考虑将其视为一种了解特定蛋白质功能位点的方式。” MaSIF站点在此任务上的性能比两个 领先的站点交互预测器好约25%。
该系统的另一种版本称为MaSIF-search,解决了Correia所说的多对多问题:该系统不比较一种蛋白质如何与一个目标分子结合(通常在对接模拟中发生),而是比较了相互作用寻找许多蛋白质的指纹,寻找适合的蛋白质。(“在一个细胞中,您有10,000种蛋白质,其中许多蛋白质一直在互相碰撞,” Correia解释。)在这项任务上,MaSIF的性能并没有领先于领先的分子对接预测因子;它在100种蛋白质的随机集合中发现了大约一半的潜在拟合。但是,对接预测变量需要花费将近100天的计算时间来执行其搜索。MaSIF花了四分钟。
Bronstein说,如此大的提速“为基础研究打开了有趣的可能性”。毕竟,蛋白质在人体中形成了包含数以万计相互作用的功能网络。Bronstein说:“构建这些图形需要很多时间。” “使用方法(如MaSIF),它可能只是一个近似值,但它允许您至少为任何生物构建这些蛋白质间蛋白质网络的粗略版本。”
AlQuraishi指出,虽然MaSIF的皮肤深层预测蛋白质相互作用的方法很有意义,但它无法捕获所谓的诱导契合现象:分子表面彼此靠近时会改变形状(和化学性质)的方式。换句话说,两种蛋白质的表面在它们几乎已经接触之前可能不会显示出互补的指纹-这是MaSIF会错过的一个因素,因为诱导的拟合取决于蛋白质表面下的结构。AlQuraishi说:“进化可能正是为此而优化的,”。“ [MaSIF]令人惊讶的是,即使有此警告,它仍然可以很好地工作。”
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://ispeak.vibaike.com/32129