任何研究免不了大量的搜索资料,而各种组学的数据分析都希望落到与功能相关的最终物质——代谢物或者与已有报道佐证。KEGG和GO数据库在外的介绍和教程一大摞,但是有没有一个更综合的数据库呢?
BioCyc收集提供了数千个测序生物体的基因组和代谢途径的参考。数据库具有以下特点:
- 人工校验数以万计的论文构建高质量的数据库(curated databases),特别是大肠杆菌, 枯草芽孢杆菌, 人类及酿酒酵母的数据库内容 。
- 支持计算预测的代谢途径和操纵子。
- 集成多个数据库数据,包括 gene essentiality,调控网络,蛋白特征和GO注释等。
数据库概况
BioCyc.org is a microbial genome Web portal that combines thousands of genomes with additional information inferred by computer programs, imported from other databases and curated from the biomedical literature by biologist curators.
最新版本的BioCyc已经更新到23.5版本(2019年12月18日发布),已有25年开发维护历史。现已包含17043个PGDBs,9300余个基因组。
按照质量等级分为三个层级:
- 第1层:数据库至少已经接受了一年基于文献的手动管理。包括:
MetaCyc:包含来自许多生物的近2500种代谢途径;
HumanCyc:包含在人类中发现的大约300种代谢途径;
EcoCyc(大肠杆菌):Escherichia coli K-12;
AraCyc(拟南芥)
YeastCyc(酿酒酵母)
LeishCyc(利什曼原虫) - 第2层:经过计算预测但已接受中度人工管理的数据库(大多数采用1-4个月的管理)。第2层数据库可供对任何特定生物感兴趣的科学家进行手动管理。第2层数据库当前包含42个不同的生物数据库。
- 第3层:PathoLogic通过计算预测得出的数据库,并未进行过校验与更新,包含7625个 PGDBs。
注:BioCyc中的大多数微生物PGDB是通过SRI计算生成的,每6-12个月进行更新,以利用我们的途径预测算法和MetaCyc途径数据库中的改进。第二层和第三层数据库则包含了计算预测代谢通路,以及哪些基因编码代谢通路中缺少酶的预测和预测的操纵子。
PGDB同时记录的其他物种可在以下表格中获取相关信息:
结合更新频率,从引用上来看,早些年的文章引用较高,同时也有一些基于biocyc数据进一步开发的工具,说明数据库生态良好。值得一看。
网页工具
BioCyc提供了用于导航,可视化和分析基础数据库以及分析组学数据的工具:
- 基因组浏览器;
- 单个代谢途径和完整代谢图可视化;
- 提供单组学和多组学数据集的多种组学数据分析方法,包括Omics Dashboard,支持绘制通路图和代谢图,并提供相关表格;
- 基因和通路组以SmartTables的形式存放到个人账户,然后可以共享、分析、转移你账户存储的信息;
- 代谢通路搜索工具;
- 运行代谢物分析模型;
- 比较分析工具
具体的介绍可以在以下这篇文章中获得:
简单搜索
我们挑选了BioCyc位于第一层数据库中两个比较常用的数据库进行演示,我们在搜索的过程中并不用进入子数据库网页,在总站右上角进行搜索即可。主要关键词包括以下多种内容:基因,蛋白质,化合物,RNA,反应,途径,操纵子。
如果查询字符串匹配其通用名称或其同义词之一,则将返回一个对象。
一般搜索即在右上角的综合搜索框中输入关键词即可,且支持逻辑字符连接。
除了上述关键字搜索,还可以直接搜索物种(拉丁名)、EC酶号、UniProt数据库编号、GO term也可以进行关联搜索。例如搜索EC酶号 1.2.1.4,也能获得对应的相关的蛋白或者反应方程。
使用下来唯一的问题是部分的PGDB可能要求注册(收费),但是基础信息的获取还是很不错的。
信息量超大,搜就对了
哦对了,主站地址:https://biocyc.org/
版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#Bio#
90
好文章
145