国家发展改革委关于推广借鉴深圳经济特区创新举措和经验做法的通知
2021年7月29日
《中国健康经济评论2020》节选之①——Covid-19下人与自然的关系
2021年8月11日

沐芸观点 | AlphaFold—数据驱动的新型产业公共服务平台

111.jpg

刘沐芸

中国(深圳)综合开发研究院 特约研究员

深圳市先行示范区专家库医疗组  专家 

个体化细胞治疗技术国家地方联合工程实验室 主任




伴随着测序成本的日益下降,生物医学领域产生大量的2D数据,驱动着生物学研究的进步与革新。现在,人工智能的引入正推动着生物学进入3D世界,DeepMind搭建的AlphaFold公共服务平台,不仅解决了一项长久以来横亘在生物医学研究路途的挑战,从氨基酸序列,就能准确的预测蛋白质3D结构,也为我们提供了一个了解蛋白质世界的高效、快捷路径。


这个发现将极大便利和简化生物学家尤其是实验生物学家的工作,生物学家能更精细、更准确地预测细胞内蛋白质的功能,并有利于科学家更有针对性地“瞄准” 特定的蛋白结构以对抗疾病的发生、发展,因此将有可能从根本上改变新药研发进程与生物医学的研究范式,由现在耗时耗力的“大海捞针”模式转为数字驱动的模型预测,实现准确、高效、快捷。过去,要了解一种蛋白质的结构和功能需要耗时经年累月。


222.jpg


DeepMind首次胜出是2020年7月。这项竞赛的规则是,参赛小组向组委会展示其用代码“盲测”已知的蛋白质结构,组委会对参赛小组提交的预测结构与数据库中的已知结构进行比对。这些已知的蛋白质结构是通过其他费时费力的方法,如射线衍射晶体分析法、冷冻电镜等获得,但迄今还未向公众公开。那一次的比赛,DeepMind的AlphaFold完胜其他参赛者,满分100,其获得90分的高分,而同期其他参赛者的得分基本都在75分左右。


2021年7月20日,DeepMind宣布,该公司已用其高准确性的深度学习模型AlphaFold2完成了“基于氨基酸序列成功预测了350,000种蛋白质的3D结构”并建立了一个数据公共服务平台。这个规模的蛋白质结构基本涵盖了人体表达的每一个蛋白结构,该研究发表在新一期的《自然》杂志,并将预测的蛋白结构上传到AlphaFold蛋白结构数据库(AlphaFold Protein Structure Database)。至此,在此公共数据服务平台上,任何人可以“输入”一个氨基酸序列,然后平台会输出与其对应的蛋白质结构和功能,而同时数据库中就会增加了一个新结构的数据,或有一个记录:某一个蛋白质结构与对应的氨基酸序列被查询过。


这个数据平台将为我们构建一个新型的数据驱动的产业公共服务平台,而不在是现在流行的服务支撑的公共服务平台,通过集聚共性需求的规模效应然后提供服务以分摊单个使用者的购买成本。而这个数据驱动的新型公共技术服务平台将为研究机构、医药公司、靶点筛选初创公司提供一个准确揭示人体分子机制的高效工具,开展各项可能的生物医学研究,为行业提升效率的同时创造增量。该数据库中的蛋白结构数据量是目前蛋白质数据银行(Protein Data Bank)的2倍。据预测,当AlphaFold2的预测规模达到1亿时,将能基本覆盖所有的蛋白质,届时这个新型的数据驱动的公共服务平台将会产生和衍生增量应用、产品和服务,我们现在还无法想象。


目前较为确定的应用场景,是为医药工业的新药筛选“提质增速”。DeepMind 采取了一项不同寻常的举措,与欧洲分子生物学实验室联合发布了此完全开源数据的公共服务平台。这将有助于衍生出许多AI驱动药物筛选的创业公司,提高其筛选蛋白质靶点的准确性和速度,也能为一些生物科技初创企业赋能,提高其工程化设计新的酶系统的效率,新建一个与传统路径本质不同的“提质增速”的发展路径。


还有一个比较确定的应用,就是为生命科学研究赋能提速。蛋白质结构预测数据公共平台的建立,为生命科学实验室的科学家提供新的研究素材和研究工具,可以快速的在数据库中核查兴趣蛋白是否具有进一步深入研究的意义,而不是过去反复费时费力的以一个又一个的生物实验证实或证伪,然后可能会发现“兴趣蛋白其实没有什么意义”的负面结果。但现在,可以通过这个数据公共服务平台直接找到有意义的蛋白质结构,得以节省大量的“试错、探索”成本时间及人力物力。


AlphaFold2的破坏性。这个蛋白质结构预测AI的出现会对实验生物学家的工作岗位带来挑战吗?目前实验生物学家或者结构生物学家的主要工作,主要是借助一些工具,比如射线衍射晶体分析法、冷冻电镜、核磁共振光谱等的辅助来发现新的蛋白质结构,再辅以生物学实验进行证实或证伪,证实就发表(Publish),证伪就淘汰(Perish)。虽然,目前预测蛋白质结构整个工作链上的部分工作已由AI接管,但AlphaFold2公共技术服务平台的准确性和可信度的进一步提升还要有一个过程,这个进化的过程,需要应用这些行业公认的“金标准”对AI预测的蛋白质结构进行验证,因此,在一定的未来期间,结构生物学家这一职业和实验生物学这门学科不会因AlphaFold2的破坏性而消失。但显然,岗位的重要性已然发生改变,可能会是计算生物学、或计量生物学等新专业成为主流。


从2018年AlphaFold首秀,到目前AlphaFold2,进化用了3年的时间。日前DeepMind宣布建立一个完全公开、开源的数据平台,人人可用,这将大概率地会加快目前依赖实验生物学实验进行验证的过程。当数据平台积累一定数量的结构预测,比如前述的1亿种蛋白结构,AlphaFold2就进化成为AlphaFold3,然后可能进入AI的自学习阶段,我们目前还无法全部想象那时的研究方法、应用场景,也无法想象那时是否还有结构生物学。


因此,当我们现在规划设计产业公共服务平台或科学设施装置时,我们该部署什么?在批量购买冷冻电镜时,也需要对具有先导知识的团队开展算法研究和数据平台的建设进行投入。提升效率、创造增量的新型公共服务平台显然是方向。


快速准确预测蛋白质结构的意义在于创造增量。今年,是首个人类基因组草图公布后的第21年,基因测序已经发现2万个人类基因,但迄今为止,只有4%的已知基因最终获批成为药物上市。也就是说,如果有高效的公共服务平台的支持,我们可以对更多的蛋白质进行研究开发,就有望带动更多的新靶点成药物进入临床应用。因此,DeepMind和被忽略疾病药物倡议(Drugs for Negelcted Diseases Initiative)建立合作关系,基于AlphaFold数据公共服务平台尝试数字化研究开发治疗Chagas病和Leishmaniasis病的药物。


333.jpg


当然,蛋白质结构数据平台的用途远不止于此,从实验室生物学家的角度来看,这个数据驱动的公共服务平台支撑的AI预测将给结构生物学带来范式改变,必然能衍生出许多当前无法想象的应用场景。这一点从侧面证实,开源开放的数据公共服务平台既是研究基础,也是研究成果。因此数据驱动的新型研究范式也正促发研究成果保有方式的转变,是独占还是共享?显然,从蛋白结构数据库这一研究成果的进化来看,开源共享是一个“我为人人、人人为我”的优选方式


因此,数据驱动的新型产业公共服务平台正在产生一种全新的“科学研究、实验开发、推广应用”的产业发展路径,与我们现在所熟知的科技产业演绎路径完全不同:数据将是科学研究和产业发展的核心要素,先导团队通过算法规则和先导知识搭建一个数据驱动的新型产业公共服务平台,开源共享,为广大使用者提供便利和提升效率的同时,也汇聚着“四面八方使用者”研究应用过程中产生的大量数据和衍生数据,为先导团队创造一个现在难以想象并且无法计量的应用场景,因为能给现有的学科和产业带来无可比拟的高效、便捷、速度,会吸引更多的人使用,实现雪球效应产生。因为,所有的使用者产生的数据和成果不再像农业社会或工业时代那样为自身所有并支持自身成长,而是反过来对先发者的进一步发展壮大产生累积性的叠加效应。这是一种新的“我为人人,人人为我”的产业公共技术服务平台,开放共享将是新时代下研究成果的保有形式。


因此,一项重大科技成果带来的不仅是效率的提升,更创造无限可能!革新我们习以为常的研究方法和产业演绎路径,也改变着我们与世界互动的方式,开放共享将成为常态,创造无限增量成为可能,这也是数据驱动的新型公共服务平台与现在的公共服务平台本质的区别所在!