Lonza与CELLINK合作推进完整的3D细胞培养工作流程哈德斯菲尔德大学向一个研究小组提供了资金研究人员在理解炎症细胞死亡和疾病的作用方面取得了很大进展过度消费和经济增长是环境危机的主要驱动力摄入蛋白质片段可改善阿尔茨海默病小鼠的工作记忆和长期记忆研究人员通过测量血脑屏障的渗漏来确定足球运动员是否患有CTE研究人员发现细胞去除是由机械不稳定性引起的CHOP研究发现 远程监护可以有效检测高危新生儿的癫痫发作结果显示 说话后大脑反应具有特别高的时间保真度新的研究成果有助于抑制致癌细胞和治疗癌症研究人员称遗传可能决定伤口感染和愈合聚焦超声显示有望治愈最致命的脑肿瘤机载地图揭示加州红杉的气候敏感性根据最新研究 牛的免疫阈值可能比我们想象的要低研究人员发现热环通过微波无线产生超声波脉冲圣裘德为儿童脑肿瘤的研究创造了新的资源科学家利用蛋白质和核糖核酸制造称为囊泡的中空球形袋遏制抗生素耐药性演变的突破点在巴西发现的基因突变会增加患癌症的风险发现的最小的恐龙蛋长约4.5厘米 宽约2厘米 重约10克 与鹌鹑蛋的重量相当海马在人类时空思维模式中的作用为什么植物是绿色的?研究小组的模型再现了光合作用新冠新增16名NBA感染病例 新冠检测了302名NBA球员Sygnature因其在药物发现方面的质量和科学卓越而享有盛誉与领先的智能实验室提供商Labforward建立了合作关系简单的临床试验可以检测患者术后或严重损伤后的出血风险实验室发现第一个可以模拟膝盖的软骨模拟凝胶Aβ蛋白的三维结构揭示了阿尔茨海默病毒性的新机制莱比锡研究人员使用一种计算方法从空气污染数据中消除天气影响结肠癌的快速基因组分析可以改善患者的治疗选择健脑游戏有助于提高老年人的驾驶技能研究人员报道转基因真菌成功杀死了疟疾蚊子深海矿物质和微量元素有助于提高高强度作业能力饮食中加入李子干可以提高超重成年人的营养消耗吃绿叶蔬菜沙拉可以改善更年期后的心血管健康研究人员发现 人体也可以发动免疫细胞进行反击研究发现 新孕妇和准妈妈使用熊胆疗法治疗妊娠相关疾病将大脑视为一个网络可以使研究人员从脑电图中提取更有意义的数据研究表明 抗生素抗性基因通过基因资本主义在大肠杆菌中持续存在数据显示 47%的人正在使用技术与医疗保健提供者交流人类大脑发育的新基因组图谱通用肠道微生物来源可以预测肝硬化发光染料可能有助于消除癌症下一代测序可以为罕见的代谢紊乱提供精确的药物人胰腺切片长期培养显示β细胞再生脊柱外科研究中财务披露不完整的比例非常高圣地亚哥动物园对老挝北部野生动物的消费进行了一项新的研究粪便微生物使诊断更具挑战性民意调查显示 纽约人对恢复正常更加犹豫不决全方位探访人类基因治疗的关键支柱
您的位置:首页>Nature杂志>生理学>

模型学习单个氨基酸如何决定蛋白质功能

导读来自麻省理工学院研究人员的机器学习模型计算地分解了氨基酸链段如何决定蛋白质的功能,这可以帮助研究人员设计和测试用于药物开发或生物研

来自麻省理工学院研究人员的机器学习模型计算地分解了氨基酸链段如何决定蛋白质的功能,这可以帮助研究人员设计和测试用于药物开发或生物研究的新蛋白质。

蛋白质是氨基酸的线性链,通过肽键连接,折叠成极其复杂的三维结构,这取决于链内的序列和物理相互作用。反过来,这种结构决定了蛋白质的生物学功能。因此,了解蛋白质的三维结构对于预测蛋白质如何对某些药物产生反应是有价值的。

然而,尽管经过数十年的研究和多种成像技术的发展,我们只知道很少一部分可能的蛋白质结构 - 数以万计的成千上万。研究人员开始使用机器学习模型根据氨基酸序列预测蛋白质结构,这可以发现新的蛋白质结构。但这具有挑战性,因为不同的氨基酸序列可以形成非常相似的结构。并且没有很多结构可以训练模型。

在5月份的国际学习代表会议上发表的一篇论文中,麻省理工学院的研究人员开发了一种方法,用于“学习”蛋白质序列中每个氨基酸位置的易于计算的表示,最初使用3-D蛋白质结构作为培训指南。然后,研究人员可以使用这些表示作为输入,帮助机器学习模型预测单个氨基酸片段的功能 - 而无需再次需要蛋白质结构的任何数据。

将来,该模型可用于改进蛋白质工程,为研究人员提供更好地归零和修饰特定氨基酸片段的机会。该模型甚至可能引导研究人员完全脱离蛋白质结构预测。

“我希望将结构边缘化,”第一作者Tristan Bepler说,他是计算机科学与人工智能实验室(CSAIL)计算与生物学研究组的研究生。“我们想知道蛋白质的作用,知道结构对此非常重要。但是,我们能预测蛋白质的功能只能给出它的氨基酸序列吗?动机是远离专门预测结构,转向[发现]氨基酸序列如何与功能相关。“

加入Bepler的是共同作者Bonnie Berger,麻省理工学院Simons数学教授,电气工程和计算机科学系的联合教员,以及计算和生物学组的负责人。

从结构中学习

研究人员将预测的蛋白质结构信息直接编码为表示,而不是像传统模型那样直接预测结构。为此,他们使用已知的蛋白质结构相似性来监督他们的模型,因为该模型学习了特定氨基酸的功能。

他们根据蛋白质结构分类(SCOP)数据库对大约22,000种蛋白质进行了模型训练,该数据库包含数千种蛋白质,这些蛋白质通过结构和氨基酸序列的相似性组织成类别。对于每对蛋白质,他们根据他们的SCOP类计算出真实的相似性得分,这意味着它们在结构上的接近程度。

然后研究人员给他们的模型随机配对的蛋白质结构及其氨基酸序列,它们被编码器转换成称为嵌入的数字表示。在自然语言处理中,嵌入基本上是以对应于句子中的字母或单词的方式组合的数百个数字的表。两个嵌入越相似,字母或单词在句子中出现的可能性就越大。

在研究人员的工作中,每对嵌入包含有关每个氨基酸序列与另一个氨基酸序列有多相似的信息。该模型对齐两个嵌入并计算相似性得分,然后预测其三维结构的相似程度。然后,模型将其预测的相似性得分与其结构的实际SCOP相似性得分进行比较,并将反馈信号发送给编码器。

同时,该模型预测每个嵌入的“接触图”,基本上表示每个氨基酸与蛋白质预测的3-D结构中的所有其他氨基酸相距多远 - 基本上,它们是否接触?该模型还将其预测的接触图与来自SCOP的已知接触图进行比较,并将反馈信号发送到编码器。这有助于模型更好地了解氨基酸在蛋白质结构中的确切位置,从而进一步更新每种氨基酸的功能。

基本上,研究人员通过要求它预测配对序列嵌入是否将共享相似的SCOP蛋白结构来训练他们的模型。如果模型的预测分数接近真实分数,它就知道它在正确的轨道上;如果没有,它会调整。

蛋白质设计

最后,对于一个输入的氨基酸链,该模型将为3-D结构中的每个氨基酸位置产生一个数值表示或嵌入。机器学习模型然后可以使用这些序列嵌入来基于其预测的3-D结构“背景” - 其位置和与其他氨基酸的接触来准确地预测每个氨基酸的功能。

例如,研究人员使用该模型预测哪些片段(如果有的话)通过细胞膜。鉴于只有一个氨基酸序列,研究人员的模型比最先进的模型更准确地预测所有跨膜和非跨膜片段。

接下来,研究人员的目标是将该模型应用于更多预测任务,例如确定哪些序列片段与小分子结合,这对于药物开发至关重要。他们还致力于将该模型用于蛋白质设计。使用它们的序列嵌入,它们可以预测蛋白质会发出什么颜色的波长。

“我们的模型允许我们将信息从已知的蛋白质结构转移到具有未知结构的序列。使用我们的嵌入作为特征,我们可以更好地预测功能并实现更有效的数据驱动蛋白质设计,”Bepler说。“在很高的层面上,这种类型的蛋白质工程是目标。”

Berger补充说:“我们的机器学习模型因此使我们能够学习蛋白质折叠的'语言' - 最初的'圣杯'问题之一 - 来自相对较少的已知结构。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

最新文章