蛋白序列综合数据库数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域,有核酸序列数据库、蛋白质序列数据库、蛋白质三维结构数据库等。主要的蛋白质数据库有PIR、SWISS-PROT 、PROSITE 、PDB 、SCOP等。(PDB,网址是:
http://www.rcsb.org/pdb/)。PDB是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明。
蛋白质数据库地址:
http://www.zhaobio.com/modules/weblinks/viewcat.php?cid=8
常用生物数据库
http://www.zhaobio.com/modules/weblinks
在PDB数据库中,蛋白质二级结构构象主要有α-螺旋(H)、β-折叠或扩展状态(E)、3/10螺旋(G),pi螺旋(I),独立的β片层结构(B)、bend(S)、氢键转角(T)几种。在最近的Critical Assessment of Protein Structure Prediction (CASP)二级结构预测中,把蛋白质二级结构构象简化为三类H、E、C。不同的氨基酸残基对于形成不同的二级结构具有不同的倾向性,本文主要对二级结构中的α-螺旋(H)和β-折叠(E)的含量进行预测。
从PDB网站下载的蛋白质文档所含的信息无法被我们直接应用,我们需要建立自己的数据库并把从PDB获得的信息输入,这样就可以方便的对大量的蛋白质信息进行统计、筛选、分类、排序等复杂操作。为了更准确的用蛋白质的氨基酸序列预测二级结构含量,我们提出利用组成天然蛋白质的20种氨基酸的标准质谱图作为蛋白质序列的描述符,来预测二级结构含量,取得了较好的效果。
我们建立数据库所用的软件是Microsoft Access 2000,数据库里的主要字段为Protein no(蛋白质信息的存储序号)、ID(PDB库中蛋白质的ID号码)、Name(蛋白质分子的名称)、Residues(蛋白质的残基数目)、Content of alpha(α-螺旋的含量)、Content of beta(β-折叠的含量)、Pri structure(一级结构)、Sec structure(二级结构)等。共收集了蛋白质信息2150条,用于蛋白质结构预测的有1840条,其中将1500条作为训练集,340条作为检验集。
打开Microsoft Access 2000,新建一个表格,为表格创建字段以及设置字段的属性。数据库的主要字段为Protein no(蛋白质信息的存储序号)、ID(PDB中蛋白质的ID号码)、Name(蛋白质分子的名称)、Residues(蛋白质的残基数目)、Content of alpha(α-螺旋的含量)、Content of beta(β-折叠的含量)、Pri structure(一级结构)、Sec structure(二级结构)。字段的基本属性设计见表3。
2 数据输入
第一步,下载数据。登入PDB网站(
http://www.rcsb.org/pdb/),在首页的search栏中输入“X-ray”搜索,应用“refine your query”功能优化搜索结果,剔除结果中的DNA和RNA条目。最后共搜索到2万多条符合条件的蛋白质信息,点击ID链接,进入页面后继续点击sequence details链接,下载该链接的页面。在该页面中,包括了我们的数据库需要输入的每个蛋白质的所有信息,我们最终下载了1804个网页文件。
第二步,将所下载页面中的有用信息拷贝到我们自己的数据库里。由于PDB中蛋白质的文件记录格式与我们自己的数据库中的记录格式的不同,使我们只能分段向数据库中拷贝数据,这大大影响了数据的输入速度和最后数据库中的数据量。最后,我们的数据库中共收集了2150条蛋白质肽链的原始记录
ExPASy是Expert Protein Analysis System的缩写,从字面理解即为专业蛋白质分析系统.从取名就可以看出网站背后的牛牛们的气势的专业精神。ExPASy由瑞士生物信息学研究所维护(Swiss Institute of Bioinformatics ),提供从序列(Swiss-Prot)到结构(Swiss-Model),以及2-D Page等蛋白质操作相关的全套服务
地址:
http://www.zhaobio.com/modules/weblinks/visit.php?lid=27
MIPS 是 Munich Information Center for Protein Sequences (慕尼黑蛋白质序列信息中心)的简称。慕尼黑蛋白质序列信息中心提供基因组相关信息资源。这个中心维护着几个通过人工干预生成的参考物种相关的数据库,这些数据库在《核酸研究》期刊中都有相关介绍。维护着一个通过PEDANT系统自动生成注释的包含400个以上基因组蛋?...
地址:
http://www.zhaobio.com/modules/weblinks/visit.php?lid=28
Swiss-Prot是一个注释蛋白质序列的数据库,在世界几大蛋白质数据库中绝对是重量级和元老级的。它由欧洲生物学实验室(The European Molecular Biology Laboratory ,EMBL)和日内瓦大学(瑞士)医学生物化学系合作建立于1986年,也就是说今年是SwissPort 20岁生日。Swiss-Prot力图提供高质量的数据注释信息,包括对蛋白质功能?...
地址:
http://www.zhaobio.com/modules/weblinks/visit.php?lid=45
正如大家所知道的,TrEMBL是对Swiss-Prot蛋白质序列数据库的增补,EMBL中没集成进Swiss-Prot数据库的所有序列都经过计算机进行注释并集成进TrEMBL. Swiss-Prot和TrEMBL由SIB(瑞士生物信息学研究所)和EBI(欧洲分子生物学研究所)共同维护.如今,Swiss-Prot,TrEMBL和 PIR数据库已经联合起来组成了Universal Protein Knowledge
地址:
http://www.zhaobio.com/modules/weblinks/visit.php?lid=262
UniProt是Universal Protein Resource的缩写。是当前最全面的蛋白质信息目录汇总。为着一个共同的目标,革命的同志们(SIB、EBI、PIR)走到了一起。基于信息整合及标准统一的需要,Swiss-Prot, TrEMBL, PIR这蛋白质序列数据库的三大巨头联合成立了UniProt。 就像沃尔玛一样,在UniProt你总能得到你想要的。UniProt基于不同的
地址:
http://www.zhaobio.com/modules/weblinks/visit.php?lid=29