AI药物研发-中山大学徐峻|GPT架构与药物创新的终点问题

发布时间:

2023-07-12 11:00

编者荐语:

当AI尤其是生成式AI的浪潮也席卷到制药行业时,徐峻教授用浅显的语言回顾了当前热门AI技术的发展路径,为化学和生物背景的读者做了一次很好的科普。他还基于自己多年在AIDD领域的研究经验指出AI技术在制药行业的应用方向和局限性,很有启发性。

 

以下文章来源于智药邦 ,作者徐峻。

 

2023年5月25日,2023 AI药物研发大会 (CAPR) 在上海召开,50多位代表专家集中介绍和讨论了制药行业如何更好地开发和应用AI技术。

中山大学药物分子设计研究中心徐峻教授以《GPT架构与药物创新的终点问题》为题发表演讲,系统、深入地阐述了人工智能方法 (尤其是GPT) 应用于药物研发的核心问题、关键挑战和未来机遇。

 

一 人工智能的终极目标与DNN的基本架构

2010年以来,随着AI热潮的再度兴起,人工智能 (主要是以DNN为核心的深度学习技术) 辅助药物发现和设计 (AIDD) 成为了生物医药领域的研究热点。

制药行业为何引入人工智能?这首先需要理解人工智能的终极目标,以及为此开发的关键方法。

 

1 人工智能的终极目标

人类开发人工智能的目标,是为了超过人类自身某一个方面的能力,主要包括四个方面的能力:抽象能力--提取形状信息、根据形状识别对象;分析能力--通过归纳总结,推导对象之间的关系;适应能力--通过试错过程发现规律;预测能力--通过鉴别因果关系,预测对象的性质。

模拟这四个方面的能力,提高人类智慧劳动的效率是人工智能的终极目标。

 

2 深度神经网络的基本架构

与这些终极目标相对应,人们发展了人工智能的四个基本架构:卷积神经网络 (CNN)、循环神经网络 (RNN)、生成式对抗网络 (GAN)、变换器/生成式预训练变换器 (Transformer/GPT)。

四种基本架构的原理如下:

图1 卷积神经网络

卷积神经网络适合于抽象,比如从一个药物分子里面抽提出它的结构特征

图2 循环神经网络

循环神经网络适合处理随时间周期变化的数据的规律。如心电图、脑电图。在捕捉这些规律的时候,数学上存在组合爆炸的问题,也是信息解码的多态性问题

图3 生成式对抗网络

生成式对抗网络的功能是通过试错过程发现规律

图4 变换器/GPT

GPT的功能是用统计学预测事物之间的协同关系。GPT是综合了前三个架构的优点的新的深度学习算法基本架构

AlphaFold 2采用了GPT的一些核心思想,是AIDD的标志性的成功应用

 

四种基本架构的比较如下:

表1 深度神经网络的四种基本架构比较

 

二 GPT带来的颠覆性思维

1 GPT的发展思路

GPT的持续火热,引发了大量的关于GPT如何影响制药行业的讨论。在演讲中,徐教授深入浅出地介绍了GPT的优点、缺点、以及带来的颠覆性思维。

传统的自然语言处理研究 (如翻译和理解) 开始于20世纪中叶,主要是基于专家制订的语法和句法规则。到了20世纪90年代,统计机器翻译 (statistical machine translation, SMT) 兴起,采用统计模型来确定基于大型平行文本语料库的给定句子的可能翻译。传统的机器学习算法 (如朴素贝叶斯、支持向量机SVM和RNN) 曾用于NLP,但是,一直没有突破性的进展。

直到近年来,Transformer和注意力机制 (包括多头注意机制) 能够使模型学习输入序列中单词之间的不同关系,彻底改变了序列数据处理领域的思路。这是自然语言文本处理的重大突破。

Transformer取得突破的根本原因是在NLP领域引入了张量 (tensor) 数学的方法。张量方法使Transformer能够表示和处理长文本数据而不会遇到内存问题,存储和更新Transformer模型的参数,对输入的文本序列的不同部分进行动态加权,在训练时通过反向信息传递定量测度 (打分) 被关注词语的注意力。Transformer的输出也以张量表示,用于文本分类、语言生成或机器翻译等任务。

而GPT的核心思路,是用统计学在特定语种的张量空间计算单词之间的距离以确定语序的重排。对自然语言处理而言,正确断句 (将一句话正确地划分为词单元) 是关键之一,而翻译 (将一句话所含的词单元按外语语序重新排列) 是词语在不同张量空间的映射与重新排序。

 

2 GPT对药物创新的启发

GPT对药物创新方法的启发在于重新考虑QSAR的研究范式。QSAR本质上应是“子结构”与活性之间的关系。分子的子结构划分问题,与NLP的断句问题和翻译问题有异曲同工之妙,可以相互借鉴。

 

GPT对药物创新的启发

• 药物创新需要理解“子结构”与活性之间的关系

• 分子的化学结构可以以化学结构线型编码 (化学自然语言) 表示

• 从分子结构中划分“子结构” = 化学断句,即基于片段的药物发现原理

• 判断分子能否作用于特定靶标 = 将分子所含的“子结构”按特定靶标要求重新组合

 

分子的化学结构用化学结构线型编码 (化学自然语言) 表示,子结构划分相当于化学自然语言的断句,可用于基于片段的药物发现。

GPT技术可以被用于药物分子设计与优化,例如,通过预训练得到药物化学的优势分子片段,而针对特定靶标的化合物聚焦库 (focused library) 可以根据靶标的信息组装分子片段。

Transformer的本质是通过张量映射提取知识,它是一种表征客观规律的工具而不像传统方法那样通过拟合技术猜测客观规律。张量是现代深度学习技术的核心。

 

3 大语言模型

GPT的近期发展是大语言模型 (LLM),它有取代长短记忆机制的趋势。LLM产生了新现象,即LLM的涌现能力。传统的QSAR模型有个预测精度与泛化能力悖论:大的训练数据量提高泛化能力但降低预测精度,反之亦然。然而,当LLM的训练数据量超出传统训练量的规模之后,精度暴增。这既带来惊喜,又带来困扰。

 

大语言模型 (Large language model)

• LLM是Transformer的通用架构,已经取代LSTM的架构

• 参数量 (十至万亿) 的通用深度学习模型,捕捉人类语言的大部分语法和语义,记住关于世界的百科全书 (可用于数据库查询)

• 模型涌现能力 (Emergent abilities) :在LLM公开部署后才发现,随着训练数据量的急剧增加,模型精度暴增的现象 (可用于分子从头生成)

• 幻觉 (Hallucination):LLM的结论得不到训练数据支持的现象 (可用于艺术创作)

• 模型评价的新标准

– 模型的尺寸:训练模型的成本 (浮点操作/参数/令牌,transformer)

– 训练数据集的尺寸:模型中参数的数量 (万亿)

– 培训成本:训练集中的令牌 (词汇) 量 (百亿)

– 培训后的性能:平均令牌似然损失的负对数

在文学艺术领域,涌现能力也许能带来意想不到的艺术创意。但是,这种“涌现能力”实际上可能带来虚假因果关系——幻觉。这在科学技术领域需要其它技术或实验予以甄别,给LLM在科学技术领域的应用带来不确定性。

 

三 药物研发的重大问题与解决方案

GPT技术的发展究竟会给药物研发带来多大的改变?在回答这个问题之前,需要总结药物研发面临的重大问题。

1950年以来,药物研发领域跟信息技术领域存在一个相反的趋势。信息业有个摩尔律 (Moore's Law),即处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。然而药物研发领域却有个反摩尔律 (Eroom's Law):1950年以来,每10亿美元研发支出中批准的新药数量大约每9年减半,经通胀调整后下降了约80倍。

反摩尔律是药物研发领域的重大挑战。为了解决这个问题,业界采取了许多措施,主要有:扩大筛选范围、寻找新的药物靶标、开发生物药、应用AI驱动的药物研发。

近年来,人工智能在药物靶标发现与确认、先导化合物的发现、先导化合物的优化设计、和临床试验设计等领域的应用有了长足的进步。

人工智能在药物设计中的应用,过去五十年来从未停止过。如今,深度学习技术已经应用到药物设计领域的各个方面。徐教授认为,应该发展基于GPT的药物发现平台。

基于GPT的药物发现平台的主要组成部分

 

徐教授团队历年来在AIDD领域的研究成果

 

徐教授认为,AIDD领域需要重点关注数据问题。任何AI模型离不开准确的、阴阳采样平衡的、涵盖范围广泛的真实大数据。在非文学艺术领域,应该避免涌现现象带来的幻觉问题。

 

四 药物创新的终点问题

徐教授强调,AI技术在制药行业的应用,应当是问题驱动的,而不是技术驱动或数据驱动。人们应该不忘初心,关注药物发现的终点问题:

 

以问题为导向的AI:解决药物发现的终点问题

• 如何发现新药 (病理、药理、化合物库合成、筛选、HTL、靶标鉴定、先导化合物优化、成药性评估)?

• 如何制备药物 (合成/提取、剂型、规模化生产、资源合理利用)?

• 如何控制药物质量 (生产质控、质量标准制定、药品监管)?

• 如何评价药效和安全性 (药物代谢、ADMET)?

• 如何优化用药方案 (上佳递送途径、上佳剂量和上佳时间、避免配伍问题)?

• 如何解决耐药性问题?

• 如何解决个性化用药问题 (避免毒副作用、过度治疗、无效治疗)?

• 如何监测临床用药 (剂量监测、代谢监测、疗效监测)?

• 如何降低药物的价格?

• 如何应对流行病、慢性疾病、老龄化问题?

 

以药物化学家为例,他们特别关心如下终点问题:

 

以问题为导向的AI:解决药物化学家的终点问题

• 药物化学的主要终点参数

– PD:IC50 or EC50 < 100nM, 明确的 SAR和浓度依赖性

– PD:明确的特异选择性 (例如,用 PanLabs/Cerep 试剂盒验证)

– 明确的证据显示药效是通过药物分子与靶标相互作用而产生

– PK: 大鼠肝细胞固有去除率 < 14mL/min/10x6 cells, 人微粒体固有去除率 < 23mL/min/mg

– PK: 大鼠静脉注射去除率 (< 35ml/min/kg, Vol > 0.5L/kg, T1/2 > 0.5 h)

– PK: 大鼠口服生物利用度 > 10%, 血浆蛋白结合率 < 99.5%, 溶解度 > 10ug/ml

– 毒理学:P450 IC50 > 10uM (1A2, 2C9, 2C19, 2D6, 2E1, 3A4)

– 毒理学:hERG 通道介导重极化 IKr 电流心脏动作电位正常

– 知识产权清晰

• 上述终点问题的判别都基于因果关系

 

值得注意的是,解决这些终点问题的基础,是正确的因果关系。而当前的人工智能技术的优势是能够帮助人们效率很高地发现大数据中蕴涵的变量之间的关系,这些关系不一定都是因果关系,还可能是虚假的关系。

 

DNN基本架构的适用范围与局限性

• DNN基本架构的适用范围

– RNN适合发现时间依赖型序列数据的模式

– CNN适合高维、高噪声图像模式识别和分类

– GAN适合于数据增强、药物分子从头设计

– GPT适合于构建通用人工智能系统,在规程化系统中有优势

• DNN的局限性

– 涵盖因果关系,但也包括虚假关系。它发现的规律需要被验证

– 可能受数据误导,产生虚构事实和错误的结论

• 药物创新应该受问题驱动,不应提倡技术驱动或数据驱动

• 突破“反摩尔律”是终极判据

 

传统的研究方法主要基于对因果关系的逻辑推理,比如,微积分的计算、数据拟合方法,都是对因果关系的演算,得到直接或间接的因果关系。现代深度学习技术主要基于张量统计学,其结果可能包括虚假的变量关系,需要通过其它方法,如机理的实验研究予以甄别。

 

五 当前AI技术给我们的启示

纵观现代人工智能理论和技术的发展历程,徐教授总结了如下五点启示:

 

1 GPT是整洁原则的成功

在人工智能发展史上,曾有“整洁风格”与”邋遢风格”之分,前者基于数学逻辑范式的算法实现,强调算法的通用性和普适性;后者基于大量基于经验的手工编码或知识工程方法,强调算法特异性和专家的作用。GPT再一次证明:理论的至高境界是使核心变量及其关系达到极简 (爱因斯坦语)。

 

2 深度学习是软计算的成功

硬计算是指用逻辑学与数学分析解决问题的经典方法;软计算是指近似推理和随机化搜索方法 (如遗传算法、模糊逻辑和神经网络),它容忍不精确/不确定/部分正确等现象。

 

3 GPT是通用人工智能的成功

早期的人工智能由于算力和数据量不够,采用先做专家系统后开发通用人工智能系统的策略,结果没有成功。现代GPT为通用人工智能 (AGI,早期的工作如卡内基梅隆大学的逻辑理论机和一般问题求解器) 系统打开了大门。通用人工智能将取代成熟工程化的工作 (如GLP实验室的各种规格化的工作),它也成为开发特定领域的各种专家系统的平台。

 

4 深度学习在方法论方面的颠覆性

深度学习成功的原因主要是颠覆了传统的研究模式:(1) 传统上,数值回归和代数演算实现连续变量 (泛函) 到连续变量 (泛函) 的变换、逻辑回归实现离散变量到离散变量的变换。而深度学习使我们实现连续变量到离散变量彼此之间的任意穿越。(2) 传统上,数据访问需要通过DBMS系统。在大数据时代,GPT是大数据的访问界面,LLM是超复杂系统的研究工具。

 

GPT和大语言模型(LLM)的颠覆性

• 词嵌入(Word embedding)技术:使任何类型的数据  (数、文、图) 统一处理

• GPT是大数据的界面:数据库淘汰传统的书籍、GPT淘汰传统的数据库

• GPT是超级研究助理:实验自动化与数据、预测模型、分子实体联动生成,共同演化

 LLM的涌现 (Emergence) 能力:训练量超过给定阈值后导致模型精度暴增。利用这种现象产生新小分子、核酸、蛋白 (抗体),生物组织新模态

• LLM是超复杂系统的研究工具:从医学图像、分子图谱、电子健康记录等患者数据中提取数百万描述符,构建含亿级生物变量的模型,推导基因-疾病、病理-靶标、靶标-新药、药物-疗效、疗效-预后等因果关系

 

5 深度学习技术的问题与风险

GPT和LLM尚不具备推理、提出假说、总结和发现问题的能力。GPT和LLM产生的“幻觉”是不基于逻辑和数据的假知识,在科学界是不被认可的,例如科学LLM (Galactica) 在网上只存活3天。通过增强语言模型 (ALM) 和自动检索数据库等方法有可能解决这个问题。深度学习技术应用太快,导致的风险包括道德和法律和安全问题、私人信息泄露风险,个人或种族歧视的风险。

 

徐峻教授简介

徐峻博士,中山大学教授、药物分子设计研究中心主任、英国皇家化学会会士、广东省数据科学与技术及其应用重点学科负责人、兼美国匹兹堡大学和澳大利亚墨尔本皇家理工大学教授。1989年毕业于中科大,硕士博士论文的题目分别是化学专家系统的建立和计算机辅助有机合成路线设计。他的AI研究历程可以追溯到上世纪80年代。主攻人工智能和图论算法在药物设计中的应用。他发表的算法包括人工智能辅助有机合成路线设计、分子结构线型编码、图映射/子图匹配/超图匹配统一算法。90年代发表分子图识别算法GMA、解析蛋白质多维多量子NMR谱的模糊图算法CPA;2000年代发表的巨量分子图簇分析算法SCA、分子类药指数算法DLI;近年来发表的分子三维叠合并行算法WEGA、用于分子结构大数据挖掘的子图从头生成算法DSGA、近期领导他的团队实现了基于DNN的 小分子晶体结构预测算法、小分子化学稳定性预测算法、类生物活性小分子生成算法、点击化学反应产率预测算法等。这些算法中的大部分已经成为国际主流分子信息学系统的核心引擎。徐峻1990-1993年分别在澳洲国立大学、加拿大麦基尔大学做博士后研究。历任美国TRIPOS分子设计公司科学家,BIO-RAD萨特勒实验室研发部总监,德国Boehringer Ingelheim制药公司药物设计主管科学家,美国BioFocus-DPI制药公司药物设计总监。研究领域横跨化学、药学和信息科学。长期在一线从事分子信息学算法研究和药物发现实验研究。在方法学研究基础上,发现了多种抗代谢疾病药物、抗癌、抗γ型人类疱疹病毒的先导化合物,进入临床前研究。徐峻2009年归国创建中山大学药物分子设计研究中心,该机构由药物设计、结构生物学、天然药物化学、药物筛选与机理4个实验室和化合物储备中心组成。徐峻是我国“新药创制重大科技专项”、广东省生物大数据重大专项、广州市药物创新重大科技专项的主持人。以一作或通讯作者在国际主流杂志发表研究论文130多篇,很多药学发明专利成果已在工业界转化。

相关新闻