生物版ChatGPT来了!可“一键生成”蛋白质 应用多以开源为主

来源:科创板日报  发布时间:2023-03-07 12:00:07 

《科创板日报》3月7日讯(记者金小莫)在需求栏中输入对目标蛋白质的描述参数,比如序列长度、结构对称性、目标功能、结合配体结构、化学计量等;点击“运行任务”键;很快,电脑屏幕上就显示出了符合参数要求的蛋白质三维结构。


(资料图)

2022年10月,天壤XLab上线了蛋白质自由设计平台xCREATOR,面向高校师生免费开放,不足半年,该平台已累积有五六百用户。日前,《科创板日报》记者从天壤XLab处进一步了解到,今年2月下旬,团队自主研发的蛋白质扩散模型也已正式上线。

支撑这些平台的技术就是蛋白质结构的自动生成技术,后者也是ChatGPT的核心技术之一。另有迹象表明,自动生成技术在生命科学领域的应用正在逐渐增多

今年2月,科创板合成生物学上市公司凯赛生物宣布领投AI蛋白质设计平台公司分子之心的新一轮战略投资;同在2月,初创企业赛得康宣布完成了数千万元的种子轮融资,AI设计+蛋白模块是企业的关键词。

“其实,ChatGPT所依托的AI生成技术并非新技术,很多公司都已经有所积累并陆续开始应用了。之前有个语言模型BERT就被用于蛋白质生成了,取得了不错的成果。”一家行业企业对记者表示,只不过,当ChatGPT走热之后,AI生成技术在生命科学领域的应用也逐渐走进了公众的视野。

记者注意到,当互联网科技向AI迭代升级后,很快,AI的应用就从TMT涌向了生物医药,AI+药物发现一度成为一级市场的投资热词;类似的情况,会不会也发生在ChatGPT+药物发现上呢?

▌氨基酸恰类似于大数据

记者了解到,自动生成技术之所以可应用到蛋白质的发现上,有这样的科学逻辑支撑:

蛋白质是由氨基酸通过不同的排列组合聚合而成,每个蛋白质的三维结构又决定了它的功能作用。在算法人的眼中,氨基酸就类似于数据、蛋白质的三维结构类似于图像,通过数据及图像的不同排列组合训练,AI就能实现自生成。

在业内,这一逻辑也被称为AIGP,即AI Generated Protein(AI生成蛋白质)。

在天壤XLab,记者看到了相关应用:

在需求栏中输入对目标蛋白质的描述参数,比如序列长度、结构对称性、目标功能、结合配体结构、化学计量等;点击“运行任务”键;很快,电脑屏幕上就显示出了符合参数要求的蛋白质三维结构。

去年10月,具备该功能的xCREATOR工作台正式上线,面向高校师生免费开放;今年2月下旬,团队自主研发的蛋白质扩散模型也正式上线。

“我们还附加了一系列设计蛋白质的分析功能,可以对各类由算法自动生成的蛋白质结构进行打分,分数越高表示该自动生成的蛋白质结构的可实现性越高。”天壤XLab实验室负责人苗洪江博士介绍称。

在ChatGPT中,需要人工对数据进行标注、打分,以此来训练算法更会聊天;AIGP也是类似的逻辑,但不同的是,如果科研人员要想知道某一由算法自动生成的蛋白质,其可实现性到底高不高,还需要通过进一步的湿实验来验证,因此,AIGP的技术壁垒也就更高。

为了降低这一技术门槛,引入打分模型算法是很多企业的选择。

前述行业企业对《科创板日报》记者进一步解释了生成算法与打分算法的工作逻辑:首先,由生成模型算法生成蛋白质;其次,由人工对经打分模型筛选出的、得分较高的蛋白质,再进行实验验证,并反馈给打分模型算法。“二者就像老顽童的左右两手互搏,通过不断增强学习,来提高算法的质量。”

▌探索大分子宇宙

有了AIGP,对于科研人员来说,最大的获益无疑是加速了研发的进展。

“以100个氨基酸长度的蛋白质为例,其序列的排列组合有高达20^100=1.3×10^130种可能!相比之下,人类可观测宇宙总原子数量仅有10^82,以人力来测试、构想这样庞大的蛋白质空间可以说是不可能完成的任务。”苗洪江称,如今AI模型能够精准定位到符合要求的蛋白质再由研发人员进行实验检验,蛋白质设计效率前所未有的提升使其终于可以走进产业应用中去。

更重要的是,过去基于偶然性的开发工作也极大限制了人类对于蛋白质的开发,人类已知的天然蛋白质数量为10^15,而潜在的从头设计蛋白质数量远超于已知天然蛋白质。

以人体内的蛋白质来说,“目前大多数人类蛋白质功能研究都聚焦于约5000种研究较多的人类蛋白质,而人体内还存在着一个巨大的蛋白质世界。事实上,这些功能未知的蛋白质可能掌握着打开解决人类重大疾病的钥匙,如癌症、阿尔兹海默症以及多种罕见病。”苗博士解释称。

除生命科学外,新材料、新能源和食品等领域对功能蛋白质也存有巨大的需求。“整个蛋白质世界还拥有巨大的潜在探索空间,蕴藏着无穷无尽的资源,具有极大应用价值!”天壤CEO薛贵荣博士表示,蛋白质领域的ChatGPT会成为像水、电、煤一样成为工业发展支撑,开辟出全新的科学时代。

《科创板日报》记者进一步了解到,如何获取行业数据、如何通过实验验证来对数据进行标注进而得到高质量的反馈数据仍然是限制AIGP大爆发的主要拦路虎。基于此,开源共享仍是目前行业企业们的主要选择

(文章来源:科创板日报)

关键词: ChatGPT 一键生成

生物版ChatGPT来了!可“一键生成”蛋白质 应用

《科创板日报》3月7日讯(记者金小莫)在需求栏中输入对目标蛋白质的描述参数,比如序列长度、结构对称性、目标功能、结合配体结构、...更多

2023-03-07 12:00:07

天天热点评!电影市场“樱花季”来临 小成本、轻

电影市场“樱花季”来临,小成本、轻喜剧和文艺片“扎堆”伴随春天樱花季的到来,三、四月的电影市场也呈现出与季节契合的特征——...更多

2023-03-07 11:12:59

煤炭开采加工板块表现活跃 中国神华涨超5%

3月7日,煤炭开采加工板块表现活跃,截至发稿,中国神华涨超5%,兖矿能源、陕西煤业、中煤能源等涨幅居前。近日,国家矿山安全监察...更多

2023-03-07 11:15:18

全国人大代表钟波:建议制定家用智能投影机强制性

家用智能投影行业快速成长,不过,行业的快速发展使得我国家用智能投影机标准出现了滞后现象。对此,在全国两会召开之际,全国人大...更多

2023-03-07 10:00:40

发改委外资司赴广东省开展创新拓展利用外资方式高

发改委消息,近日,发改委外资司负责同志带队赴广东省开展“创新拓展利用外资方式,高水平利用外债服务高质量发展”专题调研,重点...更多

2023-03-07 10:04:37

索尼将推出以梅西为主角的动画剧集 面向儿童和青

3月7日,据外媒Deadline报道,索尼音乐娱乐将推出以阿根廷知名足球运动员梅西为主角的动画剧集。该系列将描绘梅西作为一个孩子的各...更多

2023-03-07 10:11:22

【全球播资讯】机构策略:大盘上行趋势未改 关注

东吴证券认为,目前市场站上3300点后开始自发的进行良性调整,成交量开始放大,表明部分资金选择重新回到市场进行后续的交易,若后...更多

2023-03-07 09:12:31

世界热消息:起个名字不容易 基金公司也看《易经

基金公司股权变更不仅会带来管理层、发展策略等方面的变化,还可能会导致公司名字变更。基金公司起新名字看似简单,做起来却有不少...更多

2023-03-07 08:12:19

王雪峰代表——畅通资源要素集聚渠道

“区域经济发展的比拼,归根到底是营商环境的比拼。只有进一步优化营商环境,才能让各种要素资源加速集聚、各类经营主体活力迸发。...更多

2023-03-07 07:18:16

■数读政府工作报告 CPI涨幅预期3%左右 保供稳

政府工作报告将2023年居民消费价格指数(CPI)涨幅定在3%左右,这一预期目标与前两年保持一致。“保持物价平稳运行的基础十分坚实,我...更多

2023-03-07 06:07:51