創(chuàng )藥新聲

News

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元

導語(yǔ)

繼2018年、2020年的兩代AlphaFold的橫空出世后,蛋白質(zhì)結構預測已經(jīng)接近實(shí)驗精度,為計算賦能藥物研發(fā)領(lǐng)域打下了堅實(shí)基礎。在藥物研發(fā)漫長(cháng)的研發(fā)環(huán)節中,分子與蛋白質(zhì)的相互作用預測是下一個(gè)計算賦能藥物研發(fā)領(lǐng)域的“圣杯”。近日,星藥科技預發(fā)表了 Trigonometry Aware Neural NetworK for Drug-Protein Binding Structure Prediction。該模型是全球首個(gè)能同時(shí)預測小分子和靶蛋白三維結合構象和結合親和力的深度表征學(xué)習框架,大幅超越現存方法的最好結果。TBind采用端到端的數據驅動(dòng)范式,結合物理啟發(fā)式的幾何圖神經(jīng)網(wǎng)絡(luò ),打通了復合物三維結合模式及結合強度的雙重預測,實(shí)現了對國際商業(yè)分子對接軟件精度和效率的雙超越,為分子蛋白相互作用預測提供了國產(chǎn)首個(gè)突破性方案。繼AlphaFold之后, 將計算驅動(dòng)的藥物研發(fā)帶入新的紀元。

藥物發(fā)現是一項極具挑戰性的任務(wù)。在龐大的化學(xué)空間(約1060個(gè)類(lèi)藥物分子)中,只有一小部分能與特定的生物靶點(diǎn)結合并產(chǎn)生治療效果。目前的藥物一般以蛋白質(zhì)作為靶分子,通過(guò)設計與它相互作用的化合物小分子來(lái)治療疾病。因此,發(fā)現能與蛋白質(zhì)分子相互作用的小分子化合物并闡明其與靶蛋白的結合模式對于新藥研發(fā)至關(guān)重要。

目前,小分子和蛋白質(zhì)的結合模式很大程度上是通過(guò)使用實(shí)驗和計算方法實(shí)現的,這些方法可以幫助了解小分子配體和其靶蛋白之間的關(guān)鍵相互作用,以指導分子的優(yōu)化,達到期望的效力和選擇性。常見(jiàn)的實(shí)驗方法如X射線(xiàn)衍射、核磁共振晶體學(xué),以及最近的冷凍電鏡(EM)等技術(shù)已經(jīng)產(chǎn)生了數以萬(wàn)計的小分子-蛋白復合物結構,為闡明藥物和蛋白質(zhì)相互作用的生物學(xué)機制打下了堅實(shí)的基礎。同樣,計算方法如分子對接技術(shù),使研究者們能夠探索尚未形成共晶結構的新靶標與巨量尚未合成的虛擬化合物之間的相互作用關(guān)系,也在小分子-蛋白質(zhì)結合模式研究上發(fā)揮著(zhù)重要作用。


? ??

分子對接軟件的現狀與發(fā)展

?

分子對接技術(shù)有著(zhù)20年以上的歷史,已經(jīng)成為了基于靶點(diǎn)的藥物設計(Target-based Drug Discovery, TDD)范式中的一部分。對接軟件的核心主要有兩部分:一是設計力場(chǎng),對藥物-蛋白復合物結構打分。二是設計采樣算法,對復合物構象采樣。在傳統力場(chǎng)設計中,為了保證打分速度,將本質(zhì)上是一個(gè)多體問(wèn)題的相互作用近似為基于原子對能量的線(xiàn)性累加。近幾年在機器學(xué)習的加持下,分子對接方法在對多體問(wèn)題的近似上雖然有了更好的表現,但并沒(méi)有從根本上改變一直以來(lái)基于原子對能量的線(xiàn)性累加打分、再通過(guò)構象采樣獲得最終復合物的流程。這使得分子對接方法的精度和速度都已無(wú)法充分滿(mǎn)足現代藥物設計的需求。

2018年,DeepMind團隊推出的AlphaFold首次亮相便在國際蛋白結構預測大賽CASP13上以較大優(yōu)勢摘取桂冠;兩年后,AlphaFold 2通過(guò)精妙的模型設計,使得蛋白質(zhì)結構預測領(lǐng)域邁出了驚人的一步,達到了與實(shí)驗精度相近的水平。兩代AlphaFold通過(guò)深度學(xué)習方法,幾乎解決了蛋白質(zhì)結構預測這一困擾了科學(xué)家們70年的難題。而下一個(gè)計算驅動(dòng)的藥物研發(fā)領(lǐng)域的“圣杯”,就是橫亙在藥物研發(fā)與蛋白結構之間的關(guān)鍵問(wèn)題:

是否能通過(guò)AI方法準確地預測出小分子和蛋白質(zhì)的相互作用關(guān)系,即兩者之間的結合模式及結合強度?

?

小分子-蛋白結合預測新范式

?

為了解決上述痛點(diǎn),賦能新藥研發(fā),繼四月份與阿斯利康全球研發(fā)中心聯(lián)合發(fā)布了基于結構的深度親和力預測模型STAMP-DPI,星藥科技聯(lián)合復旦大學(xué)、中山大學(xué)研究人員,最新發(fā)布了基于三體深度神經(jīng)網(wǎng)絡(luò )(Trigonometry Aware Neural NetworK)的TBind v1.0.1,專(zhuān)攻小分子配體-蛋白質(zhì)復合物三維結構預測。不同于傳統計算化學(xué)方法和近年來(lái)興起的單一親和力預測模型,TBind采用端到端的數據驅動(dòng)范式,結合物理啟發(fā)式的幾何圖神經(jīng)網(wǎng)絡(luò ),打通了復合物三維結合模式及結合強度的雙重預測,實(shí)現了對商業(yè)級分子對接軟件精度、速度的雙超越,為分子蛋白復合物結構預測提供了首個(gè)突破性國產(chǎn)方案。

受啟發(fā)于A(yíng)lphaFold2的氨基酸內“Triangle Multiplicative Update”架構,TBind將該模塊有機地拓展到小分子和靶蛋白的分子間相互作用中,進(jìn)行了多處升級,使得模型突破傳統分子間力場(chǎng)的限制,有了直接擬合多體效應的能力且并未顯著(zhù)增加模型的復雜性。在分子間的三體神經(jīng)網(wǎng)絡(luò )模塊基礎上,TBind還自主研發(fā)了基于對比學(xué)習和分而治之思想的蛋白區塊化技術(shù),根據蛋白結構功能區實(shí)行分別關(guān)注,對保守區域進(jìn)行局部信息提取,在結構數據下實(shí)現了隱式數據增強的效果; 研究小組還提出了最大邊緣對比性親和力損失函數(max-margin contrastive affinity loss)以驅動(dòng)模型充分利用親和力信息和全局三維結構信息。對于局部信息和全局信息的權衡極大程度上提高了TBind的精度和泛化性能,使其能夠對新穎的蛋白口袋和新型的結合模式做出快速且有效的預測。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元

TBind模型示意簡(jiǎn)圖。模型的輸入為一個(gè)蛋白質(zhì)三維結構和分子三維結構,輸出是兩者之間的結合模式和結合強度。

?

摒棄傳統采樣方法

全面超越行業(yè)表現

?

在行業(yè)標準測試集PDBBind上,TBind的性能大幅超過(guò)了現存最優(yōu)的深度學(xué)習方法(由MIT Tommi Jaakkola組領(lǐng)銜開(kāi)發(fā)的EQUIBIND,ICML 2022[1])以及多款國際商業(yè)、學(xué)術(shù)對接軟件(包括GLIDE, VINA, SMINA, GINA等)。TBind使用2020年以前發(fā)表的17787個(gè)小分子復合物三維結構進(jìn)行訓練。在對2020年之后發(fā)布的142個(gè)訓練集未見(jiàn)過(guò)的新蛋白質(zhì)形成的復合三維結構預測任務(wù)中,TBind將LigandRMSD小于5?的比例從約30%提升至56%?[2];對于結合中心的預測與真實(shí)中心距離小于5?的比例更是從48%提升至76%。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元

在PDBBind新蛋白測試集中,預測結構與真實(shí)共晶結構的RMSD小于5?的比例。TBind顯著(zhù)優(yōu)于其他模型。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元


在PDBBind新蛋白測試集中,預測配體質(zhì)心與真實(shí)質(zhì)心距離小于5?的比例。TBind顯著(zhù)優(yōu)于其他模型。

由于模型摒棄了繁瑣的傳統采樣方法,利用數據驅動(dòng)的AI勢能面進(jìn)行結構生成,所以在預測和篩選的效率上也得到了大幅度提升,局對接的任務(wù)中每個(gè)分子僅需要0.5秒鐘,是學(xué)術(shù)軟件VINA的400分之一,商業(yè)軟件GLIDE的2000分之一。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元

完成一次對接打分的時(shí)間。TBind僅需要0.5秒鐘完成預測,顯著(zhù)快于傳統對接方法。

?

多場(chǎng)景應用

覆蓋正構和別構口袋

?

1. 局部對接(local docking)任務(wù)比較

TDD常見(jiàn)的場(chǎng)景之一是已知蛋白口袋的情況下利用計算工具進(jìn)行局部對接以預測新分子和靶蛋白的相互作用關(guān)系。在第一個(gè)例子中,用于治療慢性髓性白血?。–ML)的達沙替尼(Dasatinib)與蛋白ABL1結合結構(PDB 7N9G,于2022年4月公開(kāi))中GLIDE預測構象與真實(shí)結晶構象頭尾調換,導致預測結構與真實(shí)結構的RMSD差異高達11?。而TBind正確地預測出了分子的構象,與晶體結構的RMSD差異僅1.1? 。第二個(gè)例子是2022年6月剛剛公開(kāi)的TRK蛋白與一個(gè)新型Type-II型抑制劑相互結合的結構(PDB 7XAF)。GLIDE的預測結果同樣和真實(shí)構象有比較大的偏差,而TBind和真實(shí)結構幾乎一致。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元

2. 全局對接(global docking)任務(wù)比較

在First-in-Class的管線(xiàn)項目中,對于新靶蛋白的開(kāi)發(fā)時(shí)常會(huì )出現結合位點(diǎn)不明確的情況,傳統對接方法往往很難判斷出正確的結合模式。由于模型使用了蛋白區塊化技術(shù),TBind具備更強的全局預測能力,從而能夠更好地捕捉別構口袋的信息。PDB 6K1S和6QRG是PDBBind測試集中的兩個(gè)代表案例。PRMT5蛋白擁有多個(gè)結合口袋,其新發(fā)布的PDB共晶結構6K1S發(fā)現了一個(gè)全新結合位點(diǎn)。TBind雖然從未見(jiàn)過(guò)結合該別構口袋的小分子,但是仍然正確的定位到了真實(shí)結合的位置。而其他方法則更傾向于常見(jiàn)的正構位點(diǎn)。在第二個(gè)案例中,TrmD蛋白和其配體小分子皆與訓練集不同源,TBind依舊可以正確找到結合位點(diǎn),而傳統分子對接方法無(wú)法找到正確的結合口袋[2]。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元

?

開(kāi)源版本+商業(yè)版本

滿(mǎn)足不同需求

?

目前研究團隊在GitHub發(fā)布了免費開(kāi)源測試版本TBind v0.5.0,并提供了案例展示,點(diǎn)擊文末“閱讀原文”。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開(kāi)啟分子蛋白復合物結構預測新紀元

為方便大家快速?lài)L鮮,團隊提供了一個(gè)簡(jiǎn)單使用案例,只需要輸入蛋白結構和分子序列表達式,即可以進(jìn)行深度分子對接。(詳情請見(jiàn)TBind Github)??

TBind商業(yè)版本v1.0.1已經(jīng)部署于星藥科技打造新一代智能計算平臺M1,可在短時(shí)間內完成億級超高通量藥物虛擬篩選,賦能苗頭化合物發(fā)現、先導化合物優(yōu)化等藥物研發(fā)多個(gè)關(guān)鍵環(huán)節。商業(yè)合作伙伴請聯(lián)系m1@galixir.com獲取更多使用信息。

?

泛化TBind能力

或可帶來(lái)更多驚喜

?

TBind方法不僅可以應用在小分子和蛋白結合領(lǐng)域,也可以泛化到蛋白復合物結合、核酸蛋白結合等分子間相互作用問(wèn)題上。星藥科技將繼續保持創(chuàng )新精神,將AI技術(shù)與藥物實(shí)踐場(chǎng)景深度結合,不斷提升預測精度與速度,支持更多的應用場(chǎng)景。

TBind v1.0.1的發(fā)布,標志著(zhù)星藥科技已具備國際頂尖的小分子蛋白結合預測能力。作為小分子藥物設計的關(guān)鍵環(huán)節,TBind已與星藥科技的蛋白結構建模算法[3], 分子設計算法[4,5],性質(zhì)預測算法[6,7],逆合成分析算法[8,9]及智能計算平臺M1有機結合,配合生物實(shí)驗平臺,形成“AI-計算-實(shí)驗迭代”三位一體的藥物研發(fā)新范式。星藥科技將繼續聚焦能為醫藥產(chǎn)業(yè)帶來(lái)更多增益的差異化管線(xiàn),尤其是未成藥、難成藥靶點(diǎn)開(kāi)發(fā)項目,高效精準預測分子相互作用,拓展傳統化學(xué)的想象空間,探索更多新穎的藥物分子。讓世界遠離病痛,讓新藥觸手可及。

引用

[1]St?rk, Hannes, et al. 'Equibind: Geometric deep learning for drug binding structure prediction.' ICML (2022).

[2]Wei, Lu, et al. “TANKBind: Trigonometry-Aware Neural NetworKs for Drug-Protein Binding Structure Prediction” bioRxiv (2022).

[3]https://mp.weixin.qq.com/s/FR0ZS5NMG-xpzVmgUYAliQ

[4]Yang, Yuyao, et al. 'SyntaLinker: automatic fragment linking with deep conditional transformer neural networks.' Chemical science 11.31 (2020): 8312-8322.

[5]Wang, Jiahao, et al. 'Meta learning for low-resource molecular optimization.' Journal of Chemical Information and Modeling 61.4 (2021): 1627-1636.

[6]Chen, Jianwen, et al. 'Learning Attributed Graph Representations with Communicative Message Passing Transformer.' IJCAI (2021).

[7]Rao, Jiahua, et al. 'Molrep: A deep representation learning library for molecular property prediction.' bioRxiv (2021).

[8]Shuangjia, Zheng, et al. “Deep learning driven biosynthetic pathways navigation for natural products with BioNavi-NP” Nature Communication (2022)

[9]Chen, Binghong, et al. 'Retro*: learning retrosynthetic planning with neural guided A* search.' International Conference on Machine Learning. ICML, 2020.


關(guān)于星藥科技


星藥科技(Galixir)成立于2019年,是一家使用尖端人工智能技術(shù)賦能藥物研發(fā)的公司。星藥通過(guò)使用人工智能的前沿算法,結合計算化學(xué)、藥物化學(xué)和生物學(xué)的工具及經(jīng)驗,全方位攻克小分子藥物早期研發(fā)流程中的疑難問(wèn)題,快速發(fā)現活性高、成藥性好且結構新穎的候選分子。星藥正在和國內外藥企以及研究機構合作推進(jìn)多個(gè)藥物研發(fā)管線(xiàn),覆蓋中樞神經(jīng)系統疾病、自體免疫類(lèi)疾病、腫瘤、呼吸系統疾病等不同疾病領(lǐng)域,作用機制包括抑制劑和激動(dòng)劑等不同類(lèi)別。星藥將單個(gè)臨床前藥物研發(fā)管線(xiàn)的成本和時(shí)間大幅降低和縮短,使得同時(shí)儲備多條藥物研發(fā)管線(xiàn)、優(yōu)化整體戰略布局都成為可能。