细胞色素P450酶(Cytochrome P450酶,简称P450酶)是世界上公认的用途最广泛的催化剂,在生物代谢和生物合成过程中发挥着重要作用。尽管数据库中有大量的P450基因(超过30万个),但只有一小部分(不到0.2%)进行了功能表征。为了提供一个方便的平台,提供丰富的p450及其相应反应的信息,作者引入了P450Rdb数据库,这是一个人工整理的资源,汇集了p450催化反应的文献。
Highlights
P450Rdb汇编了由p450催化的1,600多种反应的综合目录。
P450Rdb收集了来自200多个物种的590多个p450。
P450Rdb根据其化学反应类型和场所系统地组织所有反应。
P450Rdb为p450及其相关反应提供了一个用户友好的界面。
P450Rdb对合成生物学、药理学和化学工业的研究有益。
Abstract
介绍:细胞色素P450酶(Cytochrome P450酶,简称P450酶)是世界上公认的用途最广泛的催化剂,在生物代谢和生物合成过程中发挥着重要作用。尽管数据库中有大量的P450基因(超过30万个),但只有一小部分(不到0.2%)进行了功能表征。
目标:为了提供一个方便的平台,提供丰富的p450及其相应反应的信息,我们引入了P450Rdb数据库,这是一个人工整理的资源,汇集了p450催化反应的文献。
方法:所有的p450和反应都是从文献和已知数据库中手动整理出来的。随后,将P450反应根据其化学反应类型和部位进行组织和分类。网站采用HTML和PHP语言开发,数据存储采用MySQL服务器。
结果:当前版本的P450Rdb收录了超过1600种反应,涉及超过200种不同种类的590多种p450。此外,它还提供了一个用户友好的界面,提供全面的信息,方便查询,浏览和分析p450及其相应的反应。P450Rdb可在
http://www.cellknowledge.com.cn/p450rdb/免费获得。
结论:我们相信该数据库将显著促进p450基因的结构和功能研究,从而促进天然产物合成、制药工程、生物技术应用、农业和作物改良以及化学工业等领域的进步。
Introduction
细胞色素P450 (CYP, P450)是一个利用血红素作为辅助因子催化单加氧酶反应的超家族酶。它们存在于所有生命领域,包括植物、动物、真菌、原生生物、细菌、古细菌,甚至病毒[1,2]。其中,与动物和微生物相比,植物p450发生了显著的多样化[3,4]。它们在植物界表现出广泛的丰度和功能多样性,在天然产物的生物合成途径中发挥关键作用,并为植物可塑性提供分子基础[3,5]。
积累的研究表明,p450具有显著的催化能力,可促进20多种氧化还原反应,包括羟基化、亚砜化、氧化、环氧化、脱羧和环化[6]。这些反应涉及各种底物和产物,包括萜类、生物碱、脂肪酸、类固醇、抗生素和异种生物,使p450成为自然界最通用的生物催化剂[7-9]。在体内,p450在细胞代谢、天然产物的生物合成和降解、药物和环境污染物的代谢以及植物的化学防御等方面发挥着重要作用[3,10 - 13]。由于其多种催化能力,p450在合成生物学、生物技术和农业应用、制药、生物修复和环境监测以及化学工业中引起了极大的兴趣[14-21]。
近年来,“组学”技术和合成生物学的进步为p450的鉴定和功能解释做出了重大贡献[22-24]。然而,仍存在一些挑战,如晶体结构鉴定、增强异源活性和酶工程[25-28]。此外,尽管已经开发了许多数据库来记录、管理和分析大量的P450数据(表S1),如Cytochrome P450主页[29]、Human Cytochrome P450 (CYP)等位基因命名委员会主页[30]、P450包含系统目录[31]、拟南芥P450数据库[32]、SuperCYP数据库[33]、昆虫P450站点(
http://p450.antibes.inra.fr/)、PROMISE中的P450 (
http://metallo.scripps.edu/ PROMISE/P450.html)、真菌细胞色素P450数据库[34]、细胞色素P450工程数据库[35]、PCPD数据库[36]和植物细胞色素P450数据库[3],一些综述文章也对P450的相关知识进行了综述,包括其蛋白质结构、功能、相关催化反应以及与药物的相互作用(表S2)[37-40]。这些资源已经鉴定和收集了超过30万个P450基因,但其中只有不到0.2%的基因得到了功能表征[41-43]。
近年来,关注植物P450s催化功能的数据库逐渐兴起,如PCPD数据库[36][44]从文献和其他数据库中收集了181种植物P450s及其序列、结构和反应信息。基于文献来源[3],Plant Cytochrome P450数据库提供了已知代谢一种或多种底物的CYPs的广泛汇编。这些资源为植物p450相关的功能解释和合成生物学研究提供了重要的参考数据。然而,据我们所知,仍然缺乏一种专门的资源来存储和整合p450在所有生物中的催化功能和反应。在此,我们介绍了P450Rdb数据库,这是一个人工管理的资源,专注于p450催化的文献支持反应。当前版本的P450Rdb记录了超过590个p450,超过1600个反应(图1a)。我们建立这个数据库的目的是为p450及其相应反应提供一个方便的界面(图1b),从而加快天然产物合成和药理学的研究。
图1。P450Rdb的数据和网站。a.数据库中597个p450的系统发育树。b. P450db网站首页。
Materials and methods
Data collection
所有的P450和反应都是人工从文献(2023年4月之前)和其他两个已知数据库(包括PCPD数据库和TriForC数据库)中筛选出来的(图2)。最初,在PubMed、bioRxiv和Google Scholar上进行全面搜索,使用关键词如“P450”、“CYPs”、“Cytochrome P450”、“monooxygenases”、“Reaction”和“P450酶”。然后由专家管理员对检索到的出版物进行初步检查,以消除假阳性论文。P450Reaction数据库中只包含由p450催化的实验支持反应。收集到的作品经过了至少两位独立的专家策展人的严格评估和双重检查过程。出现的任何分歧都通过与第三位专家策展人的讨论来解决,以确保达成共识。此外,P450Reaction数据库还纳入了来自PCPD数据库的181个反应[36]和来自TriForC数据库的228个反应[45]。
Organization
首先,我们将所有的反应根据其化学反应类型分为六种类型:氧化反应、还原反应、氧化还原反应、结合反应、分解反应和取代反应(图2)。氧化反应是指在化学反应过程中分子、原子或离子失去电子。相反,当反应物获得电子时,还原反应就发生了。在氧化还原反应中,反应的一部分通常通过获得电子来降低其氧化值,而另一部分则被氧化,导致电子损失。当两种底物结合形成单一产物时,就发生了结合反应。另一方面,当一种反应物分解成两种或两种以上的产物时,就发生分解反应。最后,取代反应是指分子中的一个原子、离子或原子团被另一个原子、离子或原子团取代。此外,除了考虑化学反应类型外,我们还根据所涉及的具体反应位点对反应进行了区分(图2)。这些位点包括ACH3、ACH、ANH等官能团和ACHACH、ACHAOH、ACH- br等化学键。我们总共确定了41个不同的反应位点,对所有的反应进行了综合分类。
图2。P450Rdb的数据收集、整理和标注。
Annotation
为了建立各种文献来源中提到的p450和化合物(底物/产物)之间的一致性,我们使用权威参考数据库进行制图(图2)。所有的p450都被映射到UniProt数据库(UniProt ID)[46]和NCBI基因数据库(Entrez ID)[47],底物/产物被映射到PubChem数据库(PubChem CID和SID)[48]。在p450的细节方面,我们从Uniprot数据库中获得了蛋白质名称、物种信息和序列。考虑到许多p450缺乏经过实验验证的晶体结构,我们从AlphaFold数据库中添加了超链接来访问预测的蛋白质结构。就底物/产物细节而言,我们从PubChem数据库中收集了各自的公式、Smiles符号和结构。这些全面的映射和来自权威资源的数据获取确保了数据库中标准化和可靠的信息。
Architecture
首先,我们采用HTML + CSS + JavaScript的框架进行前端web开发(图3),三种编程语言相互配合,为用户提供内容清晰、界面简洁、交互性丰富的应用。网站所采用的自响应式布局也可以兼容PC端和移动端不同的场景。同时,后端采用PHP + MySQL架构,可以根据前端不同的访问请求运行不同的脚本,并动态生成相应的返回数据。该过程具有数据安全性高、查询速度快的特点。此外,我们采用Smarty模板引擎将前端与后端分离,将逻辑程序与外部内容分离,便于后期的管理和维护。平台的网络服务由EngineX (Nginx)提供。
图3。P450Rdb的架构。
Results
Data statistics
当前版本的P450Rdb记录了1692个由同行评审文献支持的人工策划的反应,涉及890种化合物(底物/产物),597个p450,涵盖200多个物种(图4a)。这些反应涉及1225种化合物作为底物或产物,并由200多种p450催化(图4a)。反应类型分布如图4b所示,氧化反应1507个,还原反应82个,分解反应61个,组合反应29个,取代反应1个。图4c显示了反应位点的分布,突出表明大多数反应发生在CH3(519个元素)和CH2(486个元素)官能团上。此外,有100多个反应发生在CHCH键和芳香环基团的CH上。p450的生物分布如图4d所示,植物占p450的一半以上(342/597),其次是微生物(137 p450)和动物(118 p450)。图4e给出了p450催化反应中参与化合物的分布,共有836个产物和570个底物。值得注意的是,181种化合物既可作为产物又可作为底物。图4f显示了P450s的长度分布,超过80%的P450s序列长度在450 - 550个氨基酸之间。
Data querying and result presentation
P450Rdb提供了一个用户友好的web界面,允许用户轻松查询p450及其催化反应。导航栏提供了各种页面的快速访问,包括“搜索”、“Blast”、“浏览”、“下载”和“统计”。P450Rdb的“搜索”页面提供了两个搜索选项:“蛋白质搜索”,用户可以在其中输入P450符号/Entrez ID/UniProt ID,以及“化合物搜索”,用户可以在其中输入底物或产品名称/PubChem CID/配方。搜索结果汇总在“结果”页面的表格中(图5)。通过点击“更多”,用户可以在“详细信息”页面上访问特定蛋白质条目的详细信息。“详细信息”页面提供了与反应和P450相关的全面信息,包括反应中涉及的P450蛋白的详细信息(如“P450符号”、“P450名称”、“基因ID”、“UniProt ID”、“物种”、“Txid”、“P450蛋白结构”和“蛋白质序列”)、反应信息(包括“反应类型”、“反应位点”和方程式)、底物/产物信息(如“底物/产物名称”、“底物/产物化学式”、“substrate /Products PubChem CID”、“substrate /Products PubChem SID”、“substrate /Products Smiles”和“substrate /Products Structure”),以及与条目相关的参考文献(包括“PMIDs”、“Title”、“Journal”和出版年份)。此外,P450Rdb还提供Blast web服务器,用于序列相似性搜索。用户可以在查询窗口中输入所查询的P450蛋白的蛋白(Blastp)或核苷酸(Blastx)序列。“结果”表显示Blast软件的三个指标(identity, E-value, Bit-score),以帮助用户评估序列的相似性。总的来说,P450Rdb提供了一个全面的、用户友好的平台来查询p450及其反应,方便用户高效地获取相关信息。
‘Browse’, ‘Download’, ‘Statistics’, ‘Help’, and ‘Submit’ page
P450Rdb提供“浏览”页面,通过选择特定的种类、反应类型和反应位点,帮助快速浏览某些类别的反应和p450。然后,用户可以通过单击“结果”表中的每个条目来查询详细信息。“下载”页面使用户可以轻松下载p450,反应,化合物列表和序列数据(fasta文件)用于非营利目的。“统计数据”页面使用各种统计图形展示最新版本P450Rdb数据的详细信息。“帮助”页面为用户提供了操作、查询和浏览P450Rdb数据库的分步教程。此外,P450Rdb的集合不可避免地不能涵盖P450s催化的所有反应。因此,我们提供了一个“提交”界面,以确保研究人员可以提交本数据库中未记录的p450催化的新反应。
Discussion
P450Rdb为p450及其相应反应的存储、集成和分析提供了一个有价值的平台,可以加速p450的识别和应用研究。然而,它仍然有一些局限性。首先,P450Rdb不包括P450酶的Km、Ks和Kcat等动力学常数,这是因为文献中大多数P450酶缺乏明确的酶动力学实验。其次,该数据库没有提供与p450催化反应相关的具体条件信息。这是因为大多数研究主要集中在p450的鉴定和生物学功能表征上,而没有深入研究其催化反应的详细信息。
尽管如此,我们致力于通过不断积累新的功能证据和p450及其反应的结果来解决这些局限性。我们将定期从出版物中收集p450及其相应的反应来更新P450Rdb。此外,我们将努力收集有关动力学常数和相关反应条件的信息,以扩大数据库的覆盖范围。此外,我们的目标是通过收集和整合涉及p4500s的生物合成途径来扩大P450Rdb的范围,从而促进与p4500s相关的功能解释和合成生物学研究。
Conclusions
总的来说,P450Rdb目前编目了超过1600个反应,涉及来自200多个物种的约600个p450,包括植物、动物、真菌、细菌和古菌。同时,它提供了一个方便的界面,提供了大量的信息,帮助查询,浏览和分析p450和相应的反应。我们相信该数据库将极大地促进p450的结构和功能研究,并为合成生物学、生物制药、环境科学和酶工程的发展做出贡献。