最新 评论: -
最新 博客: -
  • 迈克尔·罗森 迈克尔·罗森
  • 投资见解由安吉利斯的首席信息官迈克尔·罗森(Michael Rosen)撰写

    Michael在机构投资组合经理,投资策略师,交易员和学者方面拥有30多年的经验。

不仅仅是游戏

发布时间:2020年10月10日

人体中有二十种氨基酸。氨基酸是组成蛋白质的化学联系。蛋白质执行各种基本任务。例如,血红蛋白是红细胞中的蛋白质分子,可以将氧气从肺部运送到身体’s组织,并将二氧化碳从组织返回到肺部。角蛋白是构成头发,皮肤和指甲的蛋白质类型。尖峰(S)蛋白在SARS-CoV-2的受体识别和细胞膜融合过程中起关键作用。

人体中约有30万亿个细胞。每个细胞包含十亿至三十亿个蛋白质。仅仅20个氨基酸怎么能制造数十亿个蛋白质?

答案是每种蛋白质如何自身折叠形成最终形状。我们可以通过X射线晶体学来看到这一点,X射线晶体学发送电磁辐射与显示单个分子的分子晶体相互作用。这很棒,但是X射线晶体学既费时又非常昂贵。

伟大的分子生物学家Cyrus Levinthal估计有10位300 典型蛋白质的可能构型。不可能对每种变化进行粗略的计算:识别每种组合所花费的时间要比宇宙的年龄(近140亿年)更长。如果我们希望了解蛋白质的结构,则需要另一种方法。

自1994年以来,科学家每隔两年就参加一次竞赛,看看谁能创造出一种算法,仅使用其氨基酸列表就能准确预测蛋白质的形状。这项竞赛被称为“蛋白质结构预测的关键评估”,答案是没人。为参与者提供43种蛋白质进行建模,而最好的程序能够正确选择两三个蛋白质。直到2018年,DeepMind的AlphaFold程序成功预测了43种蛋白质中的25种(第二名程序获得了3种正确的选择)。上个月再次举行了比赛,DeepMind的较新版本AlphaFold2的准确率达到了惊人的92.4%。

可将折叠的蛋白质视为“空间图”,DeepMind(总部位于英国,由Alphabet拥有)建立了一个神经网络,该网络使用与进化相关的序列,多序列比对(MSA)和氨基酸残基的表示形式对进行细化和解释,同时对正在构建的隐式图进行推理。通过几天的重复此过程,AlphaFold对蛋白质的基本物理结构进行了强有力的预测,并能够使用内部置信度度量来计算每个预测的蛋白质结构的哪些部分是可靠的。

主要神经网络模型体系结构概述。该模型在进化相关的蛋白质序列以及氨基酸残基对上进行操作,以迭代方式传递两个表示之间的信息以生成结构。

 

这是一项非凡的成就:从构成蛋白质的20种氨基酸列表中,AlphaFold能够预测出该蛋白质的形状(十分之十)300 可能性达到92.4%。今年早些时候,AlphaFold预测了SARS-CoV-2病毒的几种蛋白质结构,包括ORF3a和另一种冠状病毒蛋白ORF8,其结构以前是未知的。实验学家已经证实了这两种结构的存在。

这一成就的含义不可夸大。畸形的蛋白质被认为是阿尔茨海默氏病和许多其他疾病的原因。如果我们只能识别该蛋白质的形状,我们就有机会对其进行校正。现在,有了AlphaFold,我们有了第一次机会。我们将能够更好地确定哪些药物可能与特定蛋白质结合,并有效设计蛋白质以催化化学反应。

2003年,人类基因组计划(和Celera基因组学)成功绘制了整个人类基因组图。从那时起,Universal Protein数据库已经收集了1.8亿个蛋白质序列,但是由于所需的时间和费用,只有170,000的结构得以确定。 AlphaFold代表了能够确定蛋白质结构的指数级飞跃,因此是朝着有效治疗疾病迈出的一大步。

作为投资者,我们迷恋政治话语的变迁(就像是这样),就像一场体育比赛一样。我们仔细检查每种经济释放情况,并推断出央行行长声明的隐藏含义。充满我们工作时间的大部分是噪音,而我们很容易分散注意力,而这些成就将深刻地决定我们的未来。 AlphaFold的成功就是这样的成就之一。

这不是我们第一次收到DeepMind的消息。三年前,我写了有关DeepMind的游戏程序AlphaGo,该程序在Go中击败了世界冠军Lee Sedol(//www.bepulpy.com/insights/investment-insights/3rd-quarter-2017-ghost-moves)。我注意到有十个170 按照Go板上的石头的法律安排,宇宙中的原子比原子还多。就像Go碎片的放置一样,蛋白质形状的数量也太多,以至于无法通过每种组合进行处理。与AlphaGo一样,AlphaFold找到了一个快捷方式。 DeepMind运用了自己的冠军游戏技能,并将其应用于解开生物化学的奥秘。不只是游戏这就是我们文明的进步。

订阅我们的新闻通讯或在LinkedIn上关注我们以获取定期更新

订阅我们的新闻通讯或在LinkedIn上关注我们以获取定期更新