国产精品视频一区二区三区四,亚洲av美洲av综合av,99国内精品久久久久久久,欧美电影一区二区三区电影


化工儀器網(wǎng)首頁>資訊中心>項(xiàng)目成果>正文

中南大學(xué)團(tuán)隊(duì)開發(fā)跨模態(tài)對(duì)比學(xué)習(xí)框架 顯著提升質(zhì)譜化合物鑒定效率

2025年08月15日 14:14:56 來源:化工儀器網(wǎng) 作者:宋池 點(diǎn)擊量:181

中南大學(xué)盧紅梅團(tuán)隊(duì)開發(fā)跨模態(tài)對(duì)比學(xué)習(xí)框架CSU-MS2,突破傳統(tǒng)質(zhì)譜化合物鑒定瓶頸。該框架創(chuàng)新融合外部空間注意力(ESA)模塊,實(shí)現(xiàn)質(zhì)譜與分子結(jié)構(gòu)的動(dòng)態(tài)對(duì)齊,在百萬級(jí)化合物庫(kù)檢索中Recall@1達(dá)75.45%,顯著超越現(xiàn)有主流方法。

  近日,中南大學(xué)化學(xué)化工學(xué)院盧紅梅教授課題組在分析化學(xué)領(lǐng)域取得重要突破,開發(fā)出一種名為CSU-MS2的創(chuàng)新計(jì)算框架,顯著提升了基于質(zhì)譜的化合物鑒定效率。該研究成果已發(fā)表于國(guó)際權(quán)威期刊《Analytical Chemistry》(中科院1區(qū)),論文標(biāo)題為“CSU-MS2: A Contrastive Learning Framework for Cross-Modal Compound Identification from MS/MS Spectra to Molecular Structures”。
 

 

  基于串聯(lián)質(zhì)譜(MS/MS)的化合物鑒定是代謝組學(xué)等領(lǐng)域的核心挑戰(zhàn)。傳統(tǒng)方法嚴(yán)重依賴現(xiàn)有質(zhì)譜譜庫(kù)的覆蓋范圍,而主流譜庫(kù)如NIST23僅收錄約5.1萬種化合物,與PubChem等數(shù)據(jù)庫(kù)中超過1億的真實(shí)化學(xué)空間存在巨大差距,導(dǎo)致鑒定成功率受限。CSU-MS2框架旨在突破這一瓶頸。
 
  該框架創(chuàng)新性地采用跨模態(tài)對(duì)比學(xué)習(xí)技術(shù),構(gòu)建了一個(gè)統(tǒng)一表征空間來橋接質(zhì)譜與分子結(jié)構(gòu)兩種不同模態(tài)的信息。其核心包含兩個(gè)專門編碼器:基于Transformer的質(zhì)譜編碼器用于解析MS/MS譜圖的深層特征,分子結(jié)構(gòu)編碼器則處理SMILES字符串的分子信息。通過對(duì)比學(xué)習(xí)機(jī)制,框架在特征空間中拉近匹配的“譜圖-結(jié)構(gòu)對(duì)”距離,同時(shí)推遠(yuǎn)非匹配對(duì)的距離。
 
  框架的關(guān)鍵創(chuàng)新點(diǎn)是外部空間注意力(ESA)模塊,它采用動(dòng)態(tài)特征選擇機(jī)制替代傳統(tǒng)池化操作,實(shí)現(xiàn)了質(zhì)譜特征與分子結(jié)構(gòu)特征的智能對(duì)齊與優(yōu)化聚合。實(shí)驗(yàn)數(shù)據(jù)表明,ESA模塊顯著提升了跨模態(tài)對(duì)齊精度,使跨模態(tài)檢索的Recall@1指標(biāo)提高了29.03%。在訓(xùn)練策略上,團(tuán)隊(duì)首先利用大規(guī)模CFM-ID模擬數(shù)據(jù)和ICEBERG異構(gòu)體模擬數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,隨后在高質(zhì)量實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行微調(diào),研究發(fā)現(xiàn)模型性能與微調(diào)數(shù)據(jù)量之間存在顯著的對(duì)數(shù)線性關(guān)系。同時(shí),團(tuán)隊(duì)構(gòu)建了包含672,681個(gè)化合物、整合23個(gè)權(quán)威數(shù)據(jù)源的“質(zhì)譜可搜索結(jié)構(gòu)特征數(shù)據(jù)庫(kù)”(SSFDB),大幅擴(kuò)展了可檢索的化學(xué)空間。
 
  在嚴(yán)格的性能評(píng)估中,CSU-MS2展現(xiàn)明顯優(yōu)勢(shì)。在包含1,001,047個(gè)化合物的參考庫(kù)測(cè)試中,其Recall@1(正確結(jié)果排名第一的比例)達(dá)到75.45%,顯著優(yōu)于CFM-ID 4.0 (68.38%)、SIRIUS 5.8.5 (64.85%)、MetFrag 2.5.0 (48.59%) 和 CMSSP (30.47%) 等主流方法。該框架展現(xiàn)出優(yōu)異的化學(xué)類別適應(yīng)性,在ClassyFire定義的7個(gè)超類中Recall@1均超過64%,即使對(duì)于與訓(xùn)練集結(jié)構(gòu)相似度極低的化合物,Recall@3和Recall@5也分別保持在77.78%和88.89%的高水平。數(shù)據(jù)庫(kù)規(guī)模擴(kuò)展至1000萬化合物時(shí),其Recall@10表現(xiàn)仍相對(duì)穩(wěn)定。
 
  CSU-MS2在多個(gè)獨(dú)立場(chǎng)景驗(yàn)證中表現(xiàn)出強(qiáng)大泛化能力。以人類代謝組數(shù)據(jù)庫(kù)(HMDB)為參考庫(kù)時(shí)全面優(yōu)于CFM-ID;針對(duì)人類血液代謝組學(xué)數(shù)據(jù)(MTBLS265),以ChEBI為參考庫(kù)時(shí)Recall@10高達(dá)91.67%;在CASMI 2022競(jìng)賽數(shù)據(jù)集評(píng)估中,使用完整數(shù)據(jù)庫(kù)檢索時(shí)Recall@1達(dá)29.94%,通過擴(kuò)展數(shù)據(jù)庫(kù)可提升至38.98%,Recall@10達(dá)72.32%,展現(xiàn)了優(yōu)異的同分異構(gòu)體區(qū)分能力。值得注意的是,即使目標(biāo)化合物未收錄于參考庫(kù),該框架也能檢索出結(jié)構(gòu)高度相似的候選分子。
 
  為推動(dòng)技術(shù)應(yīng)用,研究團(tuán)隊(duì)開源了全部代碼和模型,并部署了基于Gradio框架的用戶友好型在線Web服務(wù)器。該平臺(tái)支持用戶上傳MSP格式的未知MS/MS譜圖,自定義前體離子質(zhì)量及碰撞能量(0-50 eV),并靈活選擇內(nèi)置數(shù)據(jù)庫(kù)或上傳自定義數(shù)據(jù)庫(kù)進(jìn)行檢索,返回包含候選化合物結(jié)構(gòu)、匹配得分及排序的結(jié)果。
關(guān)鍵詞

相關(guān)閱讀 Related Reading

查看更多+

版權(quán)與免責(zé)聲明

  • 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其他方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
  • 本網(wǎng)轉(zhuǎn)載并注明自其他來源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。
  • 如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
第三屆工業(yè)園區(qū)污水監(jiān)測(cè)方案線上會(huì)議
關(guān)閉
河西区| 浦城县| 永丰县| 称多县| 通渭县| 红原县| 平塘县| 双峰县| 巢湖市| 大兴区| 勐海县| 房山区| 乐清市| 云林县| 海伦市| 祁阳县| 普定县| 定结县| 斗六市| 鄂托克前旗| 阿城市| 宿松县| 大安市| 阿鲁科尔沁旗| 仁化县| 蒙阴县| 扬中市| 林西县| 定西市| 郓城县| 武川县| 宝清县| 南皮县| 北碚区| 永兴县| 顺平县| 榕江县| 太湖县| 达州市| 呼玛县| 政和县|