科学家发现,Netflix,亚马逊和Facebook使用的强大算法可以“预测”癌症和神经退行性疾病(如阿尔茨海默氏病)的生物学语言。
数十年来研究中产生的大数据被输入计算机语言模型中,以查看人工智能是否能比人类做出更先进的发现。
剑桥大学圣约翰学院的学者发现,机器学习技术可以破译癌症,阿尔茨海默氏病和其他神经退行性疾病的“生物语言” 。
他们开创性的研究已在今天的科学杂志PNAS上发表,将来可用于“纠正引起疾病的细胞内部的语法错误”。
该论文的主要作者,圣约翰学院的研究员Tuomas Knowles教授说:“将机器学习技术带入神经退行性疾病和癌症的研究是绝对的游戏规则。最终,目标是利用人工智能来开发靶向药物以显着缓解症状或完全预防痴呆症的发生。”
每次Netflix推荐观看一系列节目或Facebook建议某人成为朋友时,这些平台都会使用强大的机器学习算法来对人们接下来会做什么进行高学历的猜测。Alexa和Siri等语音助手甚至可以识别单个人,并立即与您“交谈”。
该论文的第一作者,圣约翰学院的研究员Kadi Liis Saar博士使用类似的机器学习技术来训练大规模语言模型,以查看体内蛋白质引起的某些问题而引起的情况疾病。
她说:“人体是成千上万种蛋白质的家园,科学家们尚不知道其中许多蛋白质的功能。我们要求基于神经网络的语言模型来学习蛋白质的语言。
“我们特别要求该程序学习变形的生物分子缩合物的语言,即细胞中发现的蛋白质液滴,科学家们确实需要理解该语言才能破解导致癌症和神经退行性疾病(例如阿尔茨海默氏病)的生物学功能和功能失常的语言。我们发现它可以无需经过明确告知即可了解科学家在数十年的研究中已经发现的有关蛋白质语言的内容。”
蛋白质是大型的复杂分子,在体内起着许多关键作用。它们在细胞中完成大部分工作,是人体组织和器官的结构,功能和调节所必需的,例如,抗体是一种功能,可以保护人体。
阿尔茨海默氏病,帕金森氏病和亨廷顿氏病是最常见的三种神经退行性疾病,但科学家们相信有数百种。
在影响全球5千万人的阿尔茨海默氏病中,蛋白质会流氓,形成团块并杀死健康的神经细胞。健康的大脑具有质量控制系统,该系统可有效处理这些潜在危险的蛋白质团块(称为聚集体)。
如今,科学家们认为,一些无序的蛋白质还会形成液体状的蛋白质液滴,这些蛋白质称为冷凝物,它们没有膜,可以彼此自由融合。与不可逆的蛋白质聚集体不同,蛋白质的冷凝物可以形成和重整,并经常与熔岩灯中的可变形蜡团相比较。
诺尔斯教授说:“蛋白质缩合物最近在科学界引起了很多关注,因为它们控制着细胞中的关键事件,例如基因表达-我们的DNA如何转化为蛋白质-以及蛋白质合成-细胞如何制造蛋白质。
“与这些蛋白质液滴相关的任何缺陷都可能导致癌症等疾病。这就是为什么如果我们希望能够纠正导致细胞内语法错误的自然语言处理技术,从而研究蛋白质故障的分子起源,这一点至关重要疾病。”
萨尔博士说:“我们将已知蛋白质上保存的所有数据提供给算法,因此它可以学习和预测蛋白质的语言,就像这些模型学习人类语言以及WhatsApp如何知道如何为您建议单词一样。
“然后我们能够询问仅导致某些蛋白质在细胞内形成凝缩物的特定语法。这是一个非常具有挑战性的问题,将其解锁将有助于我们学习疾病语言的规则。”
由于数据可用性的提高,计算能力的提高以及技术的进步(产生了更强大的算法),机器学习技术正在快速发展。
进一步使用机器学习可以改变未来的癌症和神经退行性疾病研究。发现的范围可能超出科学家目前已经知道和推测的疾病范围,甚至可能超出人类大脑无需机器学习即可理解的范围。
萨尔博士解释说:“机器学习可以摆脱研究人员认为是科学探索目标的局限性,这意味着将发现我们甚至还没有想到的新联系。的确,这确实非常令人兴奋。 ”
现在,开发的网络已免费提供给世界各地的研究人员使用,以使更多的科学家能够研究其进展。
免责声明:本文由用户上传,如有侵权请联系删除!