小分子的鉴定是生命科学一项关键任务。|新算法使用质谱数据准确、高效预测小分子「身份」,加速新药研发
小分子的鉴定是生命科学一项关键任务 。 质谱(massspectrometry , MS)可用于分析化合物成分 , 高通量质谱技术能够从数十万个环境中收集小分子的串联质谱 。 然而 , 现有的方法是基于化学领域的知识 , 无法解释小分子质谱中的许多峰 。 
文章图片
卡内基梅隆大学和俄罗斯圣彼得堡国立大学的研究人员提出一种算法——MolDiscovery , 提高了小分子识别的效率和准确性 。 该算法使用分子的质谱数据来预测未知物质的「身份」 , 在研究早期告诉科学家他们是偶然发现了新事物 , 还是仅仅重新发现了已知事物 , 可节省发现新的天然医药产品的时间和金钱 。
该研究于6月17日以「MolDiscovery:learningmassspectrometryfragmentationofsmallmolecules」为题发表在《自然通讯》(NatureCommunications)杂志上 。 
文章图片
MS是一种电离化学物质并根据其质荷比(质量-电荷比)对其进行排序的分析技术 。 广泛应用于各个学科领域中通过制备、分离、检测气相离子来鉴定化合物 。
质谱图是小分子的指纹 , 可以用一组质量峰表示 , 但与指纹不同的是 , 没有庞大的数据库来匹配它们 。 尽管已经发现了数十万种天然分子 , 但科学家们无法获得他们的质谱数据 。
目前 , 已经出现了包含数万个小分子注释质谱的谱库 , 为开发基于机器学习的方法来提高计算机数据库搜索的灵敏度和特异性铺平了道路 。 然而 , 现有方法对于超小分子(<400Da)表现不佳 , 并且对于「重」小分子(>1000Da)在计算上不足 。
【小分子的鉴定是生命科学一项关键任务。|新算法使用质谱数据准确、高效预测小分子「身份」,加速新药研发】现在 , 该研究团队提出一种质谱数据库搜索方法——MolDiscovery , 通过学习概率模型来将小分子与其质谱相匹配 , 大大提高了小分子识别的准确性 , 同时使搜索效率提高了一个数量级 。
从全球天然产物社会分子网络(GNPS;http://gnps.ucsd.edu)搜索了800万个串联质谱后 , MolDiscovery以0%的错误发现率(FDR)鉴定了3185个独特的小分子 , 与现有方法相比 , 增加了6倍 。 在具有已知基因组的GNPS存储库的一个子集上 , MolDiscovery正确地将19个已知和三个假定的生物合成基因簇与其分子产物联系起来 。
MolDiscovery框架
MolDiscovery框架主要分两个过程:训练过程和评分过程 。 具体步骤:从构建代谢物图和生成碎片图开始 。 对于后者 , MolDiscovery使用一种新的高效算法来查找代谢物图中的桥接和2-cuts;MolDiscovery继续学习匹配碎裂图和质谱的概率模型(图1a-e);对小分子光谱对进行评分(图1f-k) , 计算FDR 。 
文章图片
文章图片
基准测试
MolDiscovery与其他五种最先进的方法进行了比较 , 数据库搜索结果显示 , MolDiscovery识别效果最好 , 平均可以正确识别测试GNPS和MoNA数据中的43.3%和64.3%的小分子 。 
文章图片
MolDiscovery也是针对DNP搜索GNPS的最快和最节省内存的方法之一 。 在预处理阶段 , MolDiscovery比其中一种方法快300倍以上 。
还根据正确分子匹配的质量范围评估了运行时间 。 对于质量>1000Da的分子光谱 , 相同质量范围内 , MolDiscovery平均只需6分钟和24秒 。
注释8倍多的光谱 , 识别出6倍多的独特化合物
- 苹果|华为新一代“小方表”来了:Watch FIT 2正式官宣
- 小米|小米最强影像旗舰!小米12S系列海报泄密:徕卡标变白了
- 徕卡|超大杯命名揭晓!卢伟冰换上小米12S Ultra
- 京东|裁员不忘膈应人,这家互联网大厂送的离职礼物恶心到我了!
- 户外|“小眼镜”增多 专家支招教你科学用眼
- 单项冠军|再添三家“小巨人”,青岛高新区梯度培育见成效
- 陨石|小行星“打水漂”闯入地球 形成世界最长陨石陨落带
- iPhone14|准大学生的数码装备推荐
- 有人觉得中暑就是热出来的,吃一些退烧药就好了,这种做法 蚂蚁庄园今日答案6月28日
- 浮甘瓜于清泉,沉朱李于寒水”描述的是什么场面 蚂蚁庄园今日答案6月28日
