MolDiscovery算法帮助科学家找到有前途的小分子
2021年6 月 20 日——一种名为 molDiscovery 的计算机算法使用来自小分子的质谱数据来预测未知物质的身份,这可能会节省研究人员寻找具有医疗用途的新天然产品的时间和金钱。6 月 17 日,Nature Communications报道了这种新方法。
小分子是低分子量的有机化合物,大小约为 1 nm。确定特定样品中存在或不存在哪些分子以及这些分子是否已知的能力在整个生命科学中具有广泛的应用。
例如,在医学中,医生在患者血液或组织样本中寻找小分子生物标志物以进行疾病诊断和预后,而流行病学家则在人群饮食和环境中寻找小分子以识别疾病风险因素。在药理学中,小分子因其作为治疗药物的潜力而受到关注。
molDiscovery 算法基于预训练的概率模型将小分子与其质谱相匹配,从而提高了小分子识别的效率和准确性。
由于其速度,该算法能够在科学家们的研究早期提醒他们是偶然发现了一个真正独特的分子,还是只是重新发现了已知的东西。
“科学家们浪费了大量时间来分离已知的分子,基本上是重新发现青霉素,”共同作者、卡内基梅隆大学计算机科学学院助理教授 Hosein Mohimani 博士在一份声明中说。“早期检测分子是否已知可以节省时间和数百万美元,并有望使制药公司和研究人员更好地寻找可能导致新药开发的新型天然产品。”
可以由一组质量峰表示的质谱作为小分子的“指纹”或唯一标识符。molDiscovery 算法的工作原理是将从样品中获取的质谱与小分子数据库中的数百万个分子结构进行比较。
molDisocovery 核心的概率模型是根据北美大众银行 (MoNA) 的参考光谱和美国国立卫生研究院 (NIH) 天然产物图书馆的分子光谱对进行训练的。
概率模型采用 P(logRank∣bondType) 形式,其中 logRank 表示相应小分子片段的质量峰强度,bondType 是 SC、OP、PC、CC、NC、OC 或这些的成对组合债券。
为了测试该系统,研究人员在全球天然产物社会分子网络 (GNPS) 存储库中的超过 800 万个光谱上运行了 molDiscovery,这是一个用于共享质谱数据的开放获取知识库。molDiscovery 系统能够以 0% 的错误发现率 (FDR) 识别 3,185 个独特的小分子,与基于化学领域知识的现有方法相比增加了 6 倍。
在具有已知基因组的 GNPS 存储库的一个子集上,molDiscovery 能够正确地将 19 个已知和三个假定的生物合成基因簇与其分子产物联系起来。
作者还指出,与以前的方法相比,molDiscovery 适用于更广泛的分子质量,对于非常小的分子(< 400 Da)表现不佳,并且对于重小分子(> 1000 Da)在计算上变得不足。
molDiscovery 系统可以处理质量高达 2000 Da 的分子,这是 Dereplicator+ 处理质量的两倍,Dereplicator+ 是 Mohimani 实验室开发的早期系统,用于根据化学结构搜索质谱。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【关于张起灵身世年龄介绍】在《盗墓笔记》系列小说中,张起灵是一个神秘而重要的角色,他的身世和年龄一直是...浏览全文>>
-
【关于张檬简介】张檬,中国内地女演员及歌手,1987年4月20日出生于山东省青岛市。她自出道以来,凭借扎实的演...浏览全文>>
-
【关于张謇的资料】张謇(1853年—1926年),字季直,号啬庵,江苏通州(今南通市)人,是中国近代著名的实业...浏览全文>>
-
【关于张家界百龙天梯的介绍】张家界百龙天梯位于湖南省张家界市武陵源风景名胜区,是世界上最高的户外电梯,...浏览全文>>
-
【关于张籍的资料】张籍(约766年-约830年),字文昌,是唐代著名诗人之一,与韩愈同为“古文运动”的重要人...浏览全文>>
-
【关于张海迪故事简介】张海迪,中国著名作家、残疾人代表,被誉为“中国的保尔·柯察金”。她自幼因病导致高...浏览全文>>
-
【关于张海迪的资料】张海迪是中国著名的残疾人作家、社会活动家,被誉为“中国保尔·柯察金”。她自幼因病导...浏览全文>>
-
【关于张飞的五个小故事】张飞是三国时期蜀汉的重要将领,与关羽并称“万人敌”,以勇猛、豪爽著称。在《三国...浏览全文>>
-
【关于张飞的故事】张飞是三国时期蜀汉的重要将领,与刘备、关羽并称“刘关张”,在《三国演义》中被描绘为勇...浏览全文>>
-
【关于鱼肉粥的做法】鱼肉粥是一道营养丰富、口感细腻的家常美食,尤其适合老人、小孩和病后恢复期的人群食用...浏览全文>>