研究背景
結直腸癌是一種常見的惡性腫瘤,與腺瘤性息肉病和Wnt信號通路的異常活化有關。微管蛋白是細胞骨架的重要組成部分,參與細胞分裂、運輸、信號轉導等多種生理過程。微管蛋白的動態不平衡是維持其功能的關鍵,而一些能夠干擾微管動態不平衡的小分子藥物,如紫杉醇、長春新鹼、秋水仙鹼等,具有抗腫瘤活性,能夠阻止細胞有絲分裂,誘導細胞凋亡。這些小分子藥物主要靶向微管蛋白的三個位點:紫杉醇位點、長春新鹼位點和秋水仙鹼位點。其中,秋水仙鹼位點位於β-微管亞基的N端,靠近α-β二聚體的界面。秋水仙鹼位點結合的小分子藥物能夠抑制微管聚合,降低微管穩定性,從而抑制腫瘤細胞增殖和轉移。
研究目的
目前,已有一些秋水仙鹼位點結合的小分子藥物,如ABT-751、CKD-516等。然而,這些藥物仍然存在一些缺陷,如毒副作用大、耐藥性高、選擇性低等。因此,尋找新型的、高效的、安全的秋水仙鹼位點結合的小分子藥物是一個迫切的需求。
案例文獻作者利用機器學習算法,從大規模的化合物庫中篩選出了一些具有高親和力和選擇性的候選分子,並對其進行了分子對接模擬,以揭示其與靶標蛋白的結合模式。然後,作者對這些候選分子進行了一系列實驗實驗。結果表明,這些分子能夠與微管蛋白的秋水仙鹼位點結合,有效抑制了微管聚合,使細胞周期停滯在G2/M期,誘導了細胞凋亡,並表現出強效的體外抗轉移活性。這些分子為開發新型的結直腸癌治療藥物提供了有價值的參考。
AIDD+CADD虛擬篩選-復現內容和結果
本文使用MaXFlow平台實現了AIDD+CADD虛擬篩選過程中所需的各項計算任務。用戶可以通過簡單拖拽組件,使用已有活性的小分子數據庫和默認參數,構建出準確率84.01%的隨機森林分類模型(準確率與文獻的85.12%一致;MaXFlow中可通過數據預處理、特徵工程和超參數優化進一步提升模型性能),並用於第一輪虛擬篩選。篩選後結構,可以使用MaXFlow中行業標準的分子對接程序進行第二輪虛擬篩選,並獲得結合模式和親和力預測結果。
圖1.AIDD+CADD虛擬篩選案例
(Guo Q, Zhang H, Deng Y, et al. Ligand-and structural-based discovery of potential small molecules that target the colchicine site of tubulin for cancer treatment. European Journal of Medicinal Chemistry, 2020, 196: 112328.)
數據準備
從文獻中獲得QSAR模型的訓練數據,構建成包含化學結構SMILES式和分類標籤的表格形式(http://doi.org/10.1016/j.ejmech.2020.112328)。模型預測使用線上獲取的SPECS數據庫(http://www.specs.net/)
圖2. QSAR模型訓練數據和預測數據
機器學習QSAR模型
在MaXFlow工作流構建頁面,構建出機器學習工作流,將模型訓練數據導入「讀取數據文件」組件,使用「設置注釋列」注釋不參與模型構建的化合物名稱,使用「獲取結構數據名稱」獲取SMILES式表頭,使用「目標變量y」指定分類指標表頭。接着使用「分子指紋計算」組件,根據輸入化合物的SMILES式,計算獲得一系列化合物描述符,用於模型構建。使用「數據集劃分」組件劃分參與模型構建的訓練集和用於評估模型的測試集。使用「互信息過濾」組件,計算特徵與標籤之間的互信息值並進行篩選,使得數據能更好表達問題的本質。使用「隨機森林分類建模」獲得模型,並用「分類型模型評估」組件獲得模型評估結果。
圖3. QSAR模型構建工作流
模型評估結果顯示,使用默認參數,未經過超參數優化的機器學習QSAR模型準確度即可達到84.01%與文獻相當;95.03%的召回率說明該模型可以假陰性結果較少,可以經可能保留活性結構用於後續篩選;86.78%的AUC表明該模型有較強的分類能力。
圖4.模型評估結果
圖5.文獻截圖和結果
構建完成的QSAR模型可以通過簡單的工作流用於活性預測,實現虛擬篩選的目的
圖6、機器學習QSAR模型虛擬篩選工作流
根據構建分類或回歸模型,在計算結果的組件報告處可獲得預測結果和分子三維結構
圖7、機器學習QSAR模型虛擬篩選結果
訓練完成的各類型機器學習模型以及其他計算流程均可封裝成APP。允許將分享至組織內,供其他成員下載。使用時只需要上傳輸入文件,即可通過固化的流程計算獲得一系列預測的數值。
圖8、機器學習模型APP使用示意
分子對接
機器學習QSAR模型虛擬篩選過後的分子可使用分子對接進行第二輪虛擬篩選,通過打分函數的結合親和力預測結果,進一步獲得理論上活性更好的分子結構。首先通過PDB數據庫獲取蛋白質晶體結構,通過「大分子預處理」刪除非標準殘基並只保留兩條需要計算的鏈,提高計算效率。在「分子對接」組件中,根據晶體中的配體結構,設置對接的網格參數。在另一條分支上,讀入篩選後的分子表格,使用「SMILES轉3D」組件轉換出用於分子對接的小分子結構。將組件如圖所示相連,即可提交任務,實現基於結構的虛擬篩選
圖9.分子對接工作流
計算結果可以顯示對接分子的結合模式,打分函數預測的結合親和力,與打分最佳結果的RMSD值,以及預測的結合模式。根據與關鍵殘基是作用模式和結合親和力,即可篩選獲得預測較好的結構。
圖10.分子對接結果