拉斯维加斯9888


電話
您的姓名 *
您的公司名稱 *
您的電話號碼 *
您的電子郵箱 *
需要 *
感興趣方向 *
留言 *
驗證碼 *
MaXFlow解決方案丨分子生成模型新开展:根據蛋白配體間相互作用構建分子生成模型
計算模擬平台
計算模擬平台
MaXFlow解決方案丨分子生成模型新开展:根據蛋白配體間相互作用構建分子生成模型
解決方案 | 2022-10-16 11:02
MaXFlow解決方案丨分子生成模型新开展:根據蛋白配體間相互作用構建分子生成模型
來源:計算模擬平台

一、背景介紹


近年來,分子深度生成模型在藥物從頭設計中的應用引起了人們的廣泛關注。數據驅動的分子深度生成模型顺利获得學習大量分子結構數據來近似化學空間的高維分佈。到现在為止,大多數的分子生成模型依賴於純結構生成中的二維配體信息。在此,作者提出了一種新的分子深度生成模型,該模型採用循環神經網絡,並結合配體-蛋白質相互作用指紋作為約束。該指紋圖譜基於配體結合構象構建,代表了配體在蛋白質口袋中的三維結合模式。在现在的工作中,作者訓練了帶有交互指紋約束的生成模型,並與正常的RNN模型進行了比較。研究表明,在配體-蛋白質相互作用指紋圖譜的約束下訓練的模型有明顯的趨勢生成保持相似結合模式的化合物。該研究結果表明,相互作用指紋約束生成模型在靶向分子生成和類藥物化學空間的指導探索方面具有潛在的應用價值。


二、實驗方法


1、數據集:選擇CDK2(細胞周期蛋白依賴激酶2)晶體結構(PDB ID: 2R3M)和A2A(PDB ID: 4UG2)作為蛋白質模型進行對接。對接研究採用Schrödinger軟件包(2020版)的Glide模塊。從ChEMBL數據庫中隨機抽取30萬個化合物作為訓練集。對於每個組合,前10個對接姿勢(基於Glide評分)留作進一步分析。每個目標特定模型的訓練集由300000個 ChEMBL集和目標活性集組成。活性集是在ChEMBL中記錄的CDK2或A2A基因的活性化合物)。


2、相互作用指紋構建

配體-蛋白相互作用指紋圖譜之前被提出用於表徵配體的3D結合模式,並應用於虛擬篩選。在該研究中,作者開發了一個python腳本來解析配體對接姿勢,從而生成配體IFP。作者構建了兩種類型的IFP,即基於原子的IFP (AIFP)和基於殘基的IFP (ResIFP),分別在原子和殘基水平上描述配體結合模式。如圖1所示,第一时间識別組成結合口袋的殘基或原子,然後檢測蛋白質和配體原子之間的五種相互作用(即氫鍵、鹵素鍵、靜電、疏水和芳香相互作用)。每個蛋白質殘基/原子有五種相互作用類型,即:五位。每個IFP位設置為「0」或「1」,表示特定殘基/原子與配體之間沒有或存在特定的相互作用類型。表1列出了定義這些交互類型的空間標準。如果每個化合物輸出多個對接姿態,則不同對接姿態產生不同的IFP。


P1.png

圖1:交互指紋構建示意圖及基於原子的交互指紋組成。交互類型包括氫鍵(hbd)、鹵素鍵(halg)、芳香Pi−Pi相互作用(pipi)、靜電相互作用(elec)、疏水相互作用(hrdr)。


T1.png

表1:配體−蛋白相互作用檢測參數


3、構建cRNN模型

訓練生成模型的基本工作流程如圖2所示。第一时间,將化合物對接到特定的蛋白質結合位點,然後根據化合物對接姿態生成IFPs作為約束條件,應用於cRNN模型。利用Kotsias等人開發的cRNN模型在IFPs約束下訓練SMILES, IFPs表徵配體3D結合模式。數據集按9:1分為訓練集和驗證集兩部分,控制模塊採用ReLU激活函數,由4個密集層組成。最後密集層的輸出用來設置後面兩層的初始隱態和細胞態LSTM (長短期記憶)細胞。控制模塊中每個密集層的大小為128,每個RNN層包含256個神經元。全部RNN層歸一化。


P2.png

圖2:基於IFP的cRNN模型示意圖。配體和受體之間的相互作用模式被編碼到IFP載體中。然後,IFPs被用作控制化合物生成的約束條件。


採用「監督學習」方法對cRNN生成模型進行訓練,以加快模型的收斂速度,提高模型穩定性。在「監督學習」方法中,在RNN序列生成的每一步中,都使用ground truth(地面真值)作為輸入,而不是上一步預測的字符。使用RDKit包生成的256個規範的SMILES字符串,在訓練過程中使用默認參數設置的Adam優化器,初始學習率為10−3。該模型顺利获得自定義學習率計劃訓練了500個epoch。在前200個epoch,學習率保持不變,然後後面的300個epoch,在每個epoch後學習率呈指數遞減,直到在最後的epoch時值為10 - 5。將預測字符與真實字符之間的交叉熵作為損失函數。


在分子生成階段,對訓練好的模型進行採樣,在配體IFPs的控制下生成SMILES。將最後一層LSTM的每個cell的輸出向量設為一個表示SMILES標記之間可能性分佈的向量。在SMILES生成過程中,使用多項採樣從該向量中抽取每個單元的單個token,並在疊代過程中形成一個SMILES字符串,直到對終止token進行採樣。為了比較,作者還訓練了一個基於RNN的在與基線生成模型相同的訓練集上不運行強化學習的REINVENT模型,該模型在正常的RNN模型上訓練,不使用配體IFP約束生成結構(即不包括控制模塊)。


4、模型構建的約束組合

本研究以配體-蛋白IFP作為主要的約束條件,在一定程度上直接反映了配體在結合位點上的結合方式。此外,其他信息,如對接分數,分子指紋(如ECFP指紋)和分子物理化學性質,包括logP,拓撲極性表面積(TPSA)、分子量(MW)、藥物相似度(QED)、氫鍵受體數量(HBA)和供體(HBD),結合IFP進行模型構建。此外,還探索了ECFP指紋作為指導結構生成的約束。在這裏,ECFP使用了半徑為3的1024比特摩根指紋。結合這些附加約束,試圖更好地控制生成結構的質量,並檢查cRNN模型的魯棒性。


三、實驗結果


1、生成化合物的有效性

對樣本256個化合物在訓練過程中的有效性進行了檢驗,結果如圖3所示。


P3.png

圖3:生成的化合物在不同epoch和採樣溫度下的有效性。(a)AIFP模型;(b) ResIFP模型;(c) dScorePP+ AIFP模型;(d) dScorePP + AIFP模型(1個姿勢);和(e) ECFP + AIFP模型。「0.2」、「0.5」和「1.0」分別為RNN模塊。


2、CDK2的AIFP模型

為了評價AIFP模型的性能,作者選取了20個CDK2活性化合物的IFPs作為種子採樣特定的化學空間。由圖4a可以看出,AIFP化合物集合的對接得分略高於活性集合,且低於REINVENT集合和隨機集合,這表明AIFP模型生成的化合物的對接得分高於REINVENT集合和隨機集合。這意味着約束模型可以在預測結合能方面產生更好的化合物。生成的化合物和種子化合物的分子相似性分佈在圖4b中,可以看到,這四組化合物的分佈似乎都非常相似。如圖4c,d所示,一般情況下,AIFP模型生成的化合物IFP回收率 (RIFP)和IFP谷本相似度(SimIFP) 最高。這表明AIFP條件模型可以在所有集合中生成與種子原子IFP高度相似的化合物。


P4.png

圖4:評價指標在CDK2 AIFP模型生成化合物中的分佈。圖例中的「REINVENT」表示在ChEMBL上訓練的REINVENT模型生成的化合物。「Active」指ChEMBL數據庫中IC50值低於50 nM的CDK2活性化合物。「Random」是指從ChEMBL中隨機選擇的化合物集。


3、複合CDK2-Constrained模型

對接得分在不同複合集之間的分佈如圖5a所示。與AIFP模型相比,dScorePP + AIFP模型生成的化合物的對接得分進一步提高,與CDK2活性水平相同。這可能是由於在約束集中包含了對接分數。如圖5b所示,Active集和dScorePP + AIFP集與種子結構的相似性略高於REINVENT集和隨機集。如圖5c,d所示,dScorePP + AIFP集達到最高所有化合物集合的AIFP回收率和相似度。然而,加入複合約束後,AIFP的富集效應在一定程度上被稀釋,這可能是由於多個約束會引入衝突,導致IFP回收率和IFP谷本相似性降低。


P5.png

圖5:CDK2 dScorePP + AIFP模型評估指標分佈。


4、CDK2受體ECFP + AIFP模型

如圖6b,c所示,由於加入了ECFP相似性約束,ECFP + AIFP模型與種子結構的ECFP相似性顯著增加。同時,生成的ECFP + AIFP模型集仍然保持着最高的AIFP位恢復率,以及最高的AIFP與種子相似。與AIFP模型的結果相比,ECFP + AIFP模型生成的集合似乎在一定程度上以失去多樣性為代價,變得更接近它們的種子結構。


P6.png

圖6:CDK2 ECFP + AIFP模型生成化合物的評價指標分佈。


5、模型平均性能的比較

如表2所示,顺利获得對接得分、IFP回收率、IFP相似度、與種子分子相似度等指標,比較了不同約束條件下分子深度生成模型的性能。在所有模型中,ResIFP和AIFP模型的IFP回收率和相似度最高,而它們的分子相似度較低。另一方面,ECFP + AIFP模型在對接得分上排名第一,幾乎在所有指標上都表現良好。


表2:基於所有生成化合物的CDK2深度生成模型的平均性能

T2.png


四、實驗結論

在本研究中,作者提出了一種利用配體結合模式信息的約束生成模型。配體/蛋白質相互作用指紋圖譜用於表徵配體結合模式,並作為側信息納入生成模型。探索其他分子理化性質以及對接得分,結合IFP作為建立模型的約束條件。從這些模型生成的化合物,平均而言,明顯具有較高的比例具有種子化合物的理想結合模式,也往往具有較高的比例滿足約束中定義的預定義標準。另一方面,一些生成化合物的骨架結構與種子化合物的骨架結構截然不同。該研究結果表明,這種嵌入生成模型的結合模式可能是一個有用的工具,以指導識別過程。該模型的一個限制是,模型的IFP輸入高度依賴於分子對接位姿的質量,因此使用合適的對接算法來生成對接位姿是至關重要的。

 

參考文獻:J. Chem. Inf. Model. 2022, 62, 14, 3291–3306