1. 引言
新药研发具有高投入、高风险、费时耗力等特点。一种药物从被发现到批准上市,期间需要经过分子探索研究、动物实验研究、临床试验研究等多个环节,平均需投入10~15年[1] 和8亿美元[2] ,且成功率极低。药物重定位(drug repositionging),亦称老药新用,是指发掘已上市药物的新适应症或新用途[3] ,毋需考虑安全性和有效性,可大大降低药物研发的风险和成本。传统的老药新用多是基于偶然发现,如原打算用来治疗心血管疾病的西地那非在临床试验中偶然发现可用来治疗男性勃起功能障碍[4] 。随着生物技术的快速发展和生物信息学的兴起,出现了基于转录组[5] 、全基因组关联分析(genome wide association study, gwas) [6] 、药物副作用[7] 等相关数据的多种药物重定位方法。这些方法中,联合运用药物靶点相互作用信息和组学数据进行药物重定位研究是一种行之有效的策略。因此,建立一个能够用于药物重定位研究用的合适的药物靶点数据库是必须的。
近些年,国内外研究者建立了众多包含药物靶点信息的数据库。其中,ttd (therapeutic target database)属于较早建立并持续更新的药物靶点数据库。该数据库目前含有2360个可成为药物靶点的分子信息,包括388个已有相应药物上市的、461个处于临床试验阶段的以及其它正在研究的和已停止的药物的靶点信息[8] 。drugbank是一个囊括药物理化性质、药理机制、临床适应症和副作用及用法用量等全面信息的综合数据库[9] ,该库目前含有1602个美国食品药品监督管理局(fda)通过的小分子化学药物。京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes, kegg)是一个整合了化学信息、基因组信息和系统信息的综合数据库,其中的kegg compound和kegg drug数据库中含有众多已被证实的药物靶点信息。promiscuous则通过结合药物、靶点及药物副作用构建了一个可用于药物重定位的数据库[10] 。此外,还有pdtd、ctd、drug2gene等[11] -[13] 数据库均有涉及药物靶点信息。
然而以上这些数据库涵盖面不同,信息来源亦不同,导致有实验支持的信息和预测的信息混杂在一起,药物和靶点的命名也未采用统一规则,同时存在数据遗漏或冗余现象。当研究人员想获得确切的药物靶点作用信息时,需要在不同数据库间进行查询、比对和鉴定,并且需要了解相关背景知识,耗时又费力。因此,我们对多库检索资源进行再整理,并且查询大量文献,对药物和靶点相关信息进行标准化,建立了一个名为bctd (bioactive compound target database)的在线药物靶点数据库,方便研究人员进行药物重定位研究。
bctd数据库的建立将帮助相关研究人员快速进行药物重定位研究。通过对bctd数据库的查询,研究者能够迅速找到作用于同一靶点的不同药物信息,结合实验验证这些不同药物是否具有相同的功能;或者依据查询出的不同药物的靶点信息,通过实验寻找能够对相应靶点起调节作用的分子,从而推断出此分子可能具有对应药物的功能。该数据库目前可通过下列地址进行自由访问 (http://biotechlab.fudan.edu.cn/database/bctd/)。
2. 材料和方法
2.1. 数据来源
bctd数据库内容均是通过人工查询和整合drugbank、kegg、chembank、ctd、ttd [8] [9] [11] [14] 等数据库和大量文献所得。本研究组选择1000多种fda批准的具有生物活性的小分子化合物(其中大多数为药物,剩余小部分为医药中间体或前体药物,下文中将统称为药物),通过drugbank等数据库查询、过滤和整合相应靶点信息。现有数据库中查询不到的药物,则通过pubmed和google scholar查询该药物相关文献提炼信息。最后剔除未找到靶点信息的药物和缺乏实验验证的药物靶点相互作用信息,保留有相关文献或实验支持的数据,构建了bctd数据库。此外,本数据库提供drugbank、uniprot、genbank、genecard、genatlas、hgnc等外部链接供用户进一步了解药物或靶点详细信息。
2.2. 数据库的构建
bctd数据库是在wampserver (v 2.5)环境下搭建,该环境是在windows平台上的apache (v 2.4.9)、mysql (v 5.6.17)和php(v5.512)集成开发环境。apache、mysql和php是互为独立的开源程序,因经常一起搭配使用,目前已形成具有良好兼容性的高性能网络开发平台,为广大科研机构和商业公司所使用。
本数据库所有内容均存储于复旦大学信息办服务器内。
数据库的构建采用b/s模式,所有数据存储在mysql数据库中,通过服务端的php代码进行数据访问与功能实现。用户使用浏览器进行数据库访问。
3. 结果
3.1. 数据库内容
本数据库现含有766个药物、746个靶点和2862条药物/化合物和靶点相互作用的信息。本库中药物名称均采用国际非专有药名(international nonproprietary name, inn),若该药物未列入inns则采用英国批准的名称(british approved name, ban)、美国采用的名称(the united states adopted name, usan)或者默克索引(merck index)。本库中所涉及蛋白质和基因均采用unipot数据库中推荐名称并提供相应链接。
3.2. 数据库web接口
bctd是一个免费在线数据库,目前可供用户查询和检索药物和靶点的相互作用。网站导航栏如图1所示。凯发娱乐凯发娱乐官网首页(home)是对本数据库的概述,用户可通过该页面对本数据库有初步认识。指导(guide)页面指导用户如何正确地使用和利用本站内容。用户若在使用过程中对本站内容或网站构建有任何建议或意见,均可通过联系凯发娱乐官网(contact us)反馈给我们。浏览(browse)页下设两个子选项,药物浏览(drug browse)和靶点浏览(target browse),用户可分别从两个角度了解数据库的全部内容。用户可通过位于导航栏右端的搜索框输入药物或靶点名称并选择药物(drug)或靶点(target)选项进行简单查询,亦可以通过查询(search)页面进行组合查询。
组合查询页面和查询结果如图2所示。用户可通过bctd编号(bctd id)、药物名称(drug name)、cas登录号(cas number)、drugbank编号(drugbank id)、靶点(target)、uniprot编号(uniprot id)、基因名称(gene name)、药理作用(pharmacological action)、物种(species)、作用(action)几项对数据库进行组合查询。bctd id为bctd数据库赋予该库中每一种药物的唯一编号。本库中药物名称均采用国际非专有药名(international nonproprietary name, inn),若该药物未列入inns则采用英国批准的名称(british approved name, ban)、美国采用的名称(the united states adopted name, usan)或者默克索引(merck index)。cas登录号是由美国化学文摘社(chemical abstracts service)为每一个化学物质所提供的唯一编号。药物作用于靶点的药理作用可能尚不明确或存在争议,用户可选择“yes”、“no”或者“unknown”。用户还可以选择药物对靶点的作用,如抑制剂(inhibitor)、拮抗剂(antagonist)、激动剂(agonist)等。现选择在药物名称栏输入“acetylsalicylic acid”(乙酰水杨酸),在基因名称栏输入“p35354”,结果显示如图2。在图2所示结果中,选择bctd id或drug均可显示该药物详细信息,如图3所示;选择target或gene均可显示靶点详细信息,如图4所示。
. the navigation bar of bctd database
图1. bctd数据库导航栏
. an example of the search interface and result interface of bctd database
图2. bctd数据库组合查询页面及查询结果示例
4. 讨论
目前bctd数据库中含有766个药物和746个药物靶点以及2862条药物与靶点相互作用的信息。现在对于药物靶点的定义和到底有多少分子可成为药物靶点尚无统一看法[15] ,但可以确定大多数靶点均为蛋白[16] 。drews [17] 于2000年最早总结出当时已知的所有药物的分子靶点为483个,其中人体内的蛋白靶点有417个(不包括抗菌、抗病毒和抗寄生虫等抗感染药物)。russ [18] 等的研究则表明人体内有2000~3000种蛋白可成为药物靶点。peter [19] 等则将已知的药物靶点缩减到仅为218个。此外,还有众多通过生物信息学手段预测靶点的研究,如stitch (search tool for interactions of chemicals) [20] 即为化学物质-蛋白质相互作用在线数据库,其中包含了海量预测信息。总之,目前已知的药物靶点大约有数百个,同时还有更多潜在的药物靶点有待发现。为了提高药物重定位研究的准确性,我们排除了不准确的和预测的靶点结果。本库中现有的746个靶点均有相关实验或文献支持,包括作用机制已研究清楚的和正在研究中的。其中98.5% (738个)为蛋白,蛋白中有84.1% (618个)为人体蛋白,其余均为细菌、真菌、病毒、寄生虫等抗感染药物靶点。
bctd目前为1.0版本,数据量较小且信息不够完善,应进一步升级和丰富数据库内容。首先应增加药物数量和种类,建立药物分类。其次,应完善药物相关信息,如适应症(indication)、别名(synonyms)、详细的作用机制(mechanism of action, moa)等。同时也应优化查询接口,丰富组合查询功能以方便研究者的使用。
bctd数据库的建立大大简化了研究人员查询与寻找药物靶点信息的流程,缩短了前期的研究时间,并且随着bctd数据库的完善与丰富,这种简化效果将越发明显。bctd数据库的建立使研究者从繁琐的信息搜集与筛选中解脱出来,更加关注于药物重定位的策略与方法研究,提高了药物重定位研究的效率,将有助于加快药物重定位的研究。当前研究者可以通过两种策略来使用bctd进行药物重定位研究:首先,通过对bctd数据库的查询,研究者能够迅速找到作用于同一靶点的不同药物信息,结合生物学实验验证这些不同药物是否具有相同的功能,依此发现药物的新功能;或者依据查询出的不同药物的靶点信息,通过实验或其它方法寻找能够对相应靶点起调节作用的分子,从而推断出此分子可能具有对应
. the detailed information of acetylsalicylic acid, this figure has not displayed all targets of the drug while the whole information is on the website
图3. 药物乙酰水杨酸详细信息,本图未列出该药物全部靶点,完整数据见数据库网站
. the detailed information of prostaglandin g/h synthase 2, this figure has not displayed all drugs acting on the target while the whole information is on the website
图4. 靶点前列腺素g/h合酶2详细信息,本图未列出作用于该靶点全部药物,完整数据见数据库网站
药物的功能。本研究组已从“联系图”(the connectivity map, cmap) [5] 获得bctd库中现有766种药物处理多种人类细胞系所得基因表达谱,以期得到每种药物的作用特征谱并加入到bctd数据库中,联合药物靶点相互作用信息和特征谱数据为药物重定位提供线索。随着bctd数据库的不断完善,相应的研究策略也会得到相应扩展,为药物重定位提供更多线索和方向。
5. 结论
bctd数据库是一个简洁明了的在线药物靶点数据库,目前包括766个药物的2862条靶点信息,用户可自由查询和检索。本数据库内容整合自多个公开数据库和科学文献。我们将持续对bctd进行升级和完善,加入更多信息和功能,期望能建成一个基于药物靶点和基因特征谱的数据库,为药物重定位提供方向和线索,同时能为科研工作者、临床医生、学生等来自不同背景的人员所利用。