欣貝萊生物|SynGears?平臺:借力AI,打造生物合成的“數字基座”
近幾年,AI for Science(AI4S)研究范式大熱,人工智能(AI)開始在科研產業轉型中扮演著越來越重要的角色。在合成生物學領域,通過借助AI計算的底層建設能力,產品研發逐漸從實驗化、經驗化走向了數字化、智能化,進而實現從生物合成向數字合成轉變。
而轉變成功與否,“數字基座”穩不穩是關鍵——通過建立科學、精準、高效的計算平臺,進而縮短合成生物學“從無到有”的造物時間。
SynGears?平臺,是欣貝萊計算團隊整合基因組解析(Genome Analysis)、進化分析(Evolution)、人工智能(Artificial Intelligence)、理性設計(Rational Design)和篩選(Screening)等前沿技術(“Gears”)自建的支持合成生物全場景設計的生物計算平臺,從前端設計到中下游開發,SynGears?平臺可為生物合成途徑挖掘、催化元件篩選和工業酶優化改造等場景提供高效、有效的數字化解決方案。
圖 | SynGears?平臺構成
作為加速數據、模型、算力和實驗深度融合的“數字基座”,SynGears?平臺和齒輪(Gears)的傳動效用類似,發揮著推動欣貝萊生物合成研究和產業化進程的獨特作用:聚焦大健康領域,通過數據挖掘與分析、算法開發/模型構建等,實現“干濕結合”研究模式的迭代優化與升級,以輔助欣貝萊進行大宗醫藥原料、食品原料以及系列新型活性原料的研究開發和落地生產。
數據:多組學聯合分析
“基于多組學聯合分析,從海量數據中去偽存真,篩選出重點代謝通路、基因和代謝產物等數據,并完成數據資源的標準化存儲。”
處理多種數據類型(數據多模態)是合成生物學研究的重要挑戰之一,這需要長期穩健的數據工程建設。
欣貝萊計算團隊具備出色的基因組大數據挖掘能力,可基于多組學聯合分析,從海量數據中去偽存真,篩選出重點代謝通路、基因和代謝產物等數據,并完成數據資源的標準化存儲——以此搭建形成了SynGears?平臺自有的天然產物綜合組學(基因組、轉錄組、蛋白組和代謝組)數據庫和特色酶(結構與活性功能)數據庫。
圖 | 部分天然產物及其活性效用
目前,該數據庫已涵蓋數千個物種的天然產物合成基因簇及數以萬計的酶結構與酶活性功能數據,并在不斷豐富與動態更新中,以實現生物系統從原料、元件到細胞的多尺度集成分析。
圖 | 天然產物P450酶分析
模式:實現干濕結合的研究閉環
“在數據資源儲備的基礎之上,通過算法開發和大語言模型構建,實現干濕結合的研究閉環,加快數據到實驗的研發進程。”
強大的數據資源為深入探索生物合成研究提供了支撐。基于該數據資源及AI+理性設計的一體化設置,SynGears?平臺可完成從算法開發/模型構建到數據分析的一站式高通量計算任務,并通過積累濕實驗團隊反饋的驗證結果迭代優化算法,形成干濕結合的研究閉環。
圖 | 干濕結合的研究閉環
借助深度學習模型識別酶-底物結合作用,平臺能對大量未知功能酶進行高通量篩選和個性化分析,以獲取實際研究生產所需、得率遠超預期的特定酶,大大加快從數據到實驗的研發進程。
同時,SynGears?平臺還具備高精準度的一流酶改造能力——以構建深度學習(DL)大模型為載體,欣貝萊已實現通過深?學習和理解蛋白序列底層特征的智能工業酶優化,鏈接中下游的開發生產。
目前,欣貝萊計算團隊開發和測試了多種不同原理的突變體計算軟件與算法以構建模型,對突變體的預測準確率和篩選活性等均已達到行業前沿水平,未來還將創新實現0樣本預測任務。
應用:聚焦大健康領域
“通過聚焦大健康領域,助力欣貝萊進行大宗醫藥原料、食品原料以及系列新型活性原料的創新開發,或根據既定藥物分子/目標產品設計全新合成路線或新酶,大幅縮短‘造物’時間。”
合成生物學通過天然產物生物合成研究賦能健康食品和生物醫藥等大健康領域,實現了顛覆式、低成本和可持續的創新。欣貝萊SynGears?平臺的搭建,則為該進程按下了“快進鍵”。
圖 | SynGears?平臺賦能大健康領域
SynGears?平臺含括數據分析、算法開發和模型構建等多種功能模塊,但并非對這些底層技術進行簡單的堆疊相加,而是根據研發實際需求組合各功能模塊,助力大數據在合成生物學領域各個研發環節的全場景設計及應用實現。
在研發前段基因篩選、活性改造之外,工業菌株及工業酶的穩定性優化對于中下游生產放大和工業應用至關重要。SynGears?平臺能夠利用計算機輔助設計,定位出酶的柔性與剛性區域,并針對柔性區域進行剛性改造,以大幅提升相關酶穩定性,實現穩定工業生產、合成生物學技術對現有市場的降本增效。
數據挖掘與算法/模型構建在研發上的高效應用,離不開強大的算力支持。現階段,SynGears?平臺已配套高數量級硬件設備支撐運行,是由AI驅動的支持全場景通用研究的高算力“數字基座”。隨著自有數據庫積累、算法開發優化和模型應用訓練的深入,平臺將不斷迭代升級,朝著更大規模、更一體化的方向發展。
作為欣貝萊數字合成藍圖構建的起點,SynGears?平臺為揭示天然產物的進化規律、理解生物合成酶,甚至設計改造生物合成體系創造非天然分子提供了可能。未來,平臺將加強與研發、生產的鏈接,進一步深化“干濕結合”研究閉環,以真正意義上實現數據、模型、算力和實驗的深度融合,通過全場景設計賦能欣貝萊在大健康領域的創新開發。