关于【ensemble数据库】,ensemble数据库介绍,今天小编给您分享一下,如果对您有所帮助别忘了关注本站哦。
- 内容导航:
- 1、ensemble数据库:宏基因组数据库ChocoPhlAn3的巧妙设计
- 2、ensemble数据库,ensemble数据库介绍
1、ensemble数据库:宏基因组数据库ChocoPhlAn3的巧妙设计
ChocoPhlAn3数据库是宏基因组分析工具MetaPhlAn 3、HUMAnN 3、StrainPhlAn 3、PanPhlAn 3 、PhyloPhlAn 3的核心依赖库。它以公共数据库UniProt/UniRef核心数据以及NCBI的taxonomy和genome数据库的微生物基因组及这些基因组上所注释的蛋白质/基因为基础数据,经过处理应用于宏基因组菌群分类、功能注释、菌株鉴定和系统发育分析。目前ChocoPhlAn3共有 99,227 个基因组(997 个古生菌,97,941 个细菌,339 个真核生物)和 8730万个基因家族。

ChocoPhlAn3数据库
ChocoPhlAn 3数据库根据微生物参考基因组的分类来组织数据,并为后续bioBakery模块计算相关序列和注释数据。
ChocoPhlAn 3收集了截止2019年1月存储在UniProt和NCBI数据库的微生物基因组,以及相应功能注释的基因家族数据,通过质量控制,将每个微生物物种与其基因组以及UniRef的基因(核苷酸序列)和蛋白(氨基酸序列)家族联系起来,生成泛基因组(pangenomes:一个物种至少存在于一个基因组中的基因家族),并处理泛基因组的功能注释信息,用于后续HUMAnN 3和PanPhlAn 3整体功能和菌株分析;
然后,从整个泛基因组中鉴定出核心基因组(core genomes:存在于一个物种的所有基因组中的基因家族),用于PhylophlAn 3分析,以推断准确的系统进化;最后,从核心基因组中提取独特的标记基因(marker genes:核心基因家族唯一与一个物种相关),作为MetaPhlAn 3和StrainPhlAn 3数据库,用于宏基因组菌种鉴定和菌株水平的遗传特征。ChocoPhlAn 3数据库下载链接:https://www.dropbox.com/sh/7qze7m7g9fe2xjg/AAAlyQITZuUCtBUJxpxhIroIa/mpa_v30_CHOCOPhlAn_201901_marker_info.txt.bz2?dl=1

ChoCoPhlAn3数据库整理过程
数据下载和质量控制
- 下载NCBI taxonomy数据库(FTP服务器:ftp.ncbi.nlm.nih.gov/pub/taxonomy/),过滤低质量分类的物种,正则表达式:“(C|c)andidat(e|us) | _sp(_.*|$) | (.*_|^)(b|B)acterium(_.*|) |. *(eury|)archaeo(n_|te|n$).* |. *(endo|)symbiont.* |. *genomosp_.* |. *unidentified.* |. *_bacteria_.* |. *_taxon_.* |. *_et_al_.* |. *_and_.* |. *(cyano|proteo|actinobacterium_.*)”
- 从NCBI GenBank数据库下载UniProt数据库所有蛋白质组的参考基因组和相关基因注释数据,并手动分配微真核生物基因组,包括:Blastocystis,Candida,Saccharomyces,Cryptosporidium,Entamoeba,Aspergillus,Cryptococcus,Cyclospora,Cystoisospora,Giardia,Leishmania,Malassezia,Neosartorya,Pneumocystis,Toxoplasma,Trachipleistophora,Trichinella,Trichomonas,Trypanosoma
- 从UniProtKB和UniParc数据库中检索与至少一个UniProt蛋白质组相关的微生物蛋白质(和基因)及相关数据,如功能、系统基因组和蛋白质结构域注释(KEGG、KO、EggNOG、GO、EC、Pfam)、编码蛋白的名称,纳入ChocoPhlAn 3数据库;
- 下载UniRef 库(UniRef100、UniRef90 和 UniRef50)并与 ChocoPhlAn 3 中的每个蛋白质和每个基因组相关联。
Pan-proteome生成

- 将至少由一个UniProt蛋白质组代表的每个物种生成泛基因组;基于UniProt90将存在于一个物种的所有基因组中的蛋白质组生成核心基因组。
marker genes生成
通过UniRef90和UniRef50库获得菌种或菌株水平的独特蛋白。
先了解几个值:
coreness:物种泛蛋白质组中包含的基因组数量,包括UniRef家族的蛋白质;
uniqueness:其他物种的泛蛋白质组的数量,包括相同泛蛋白质组;
uniqueness_sp:uniqueness类似,只是不包括被标记为低质量的物种;
external_genomes:其他物种泛蛋白质组中拥有相同泛蛋白质组的基因组数量;
- 使用SGB(species-level genome bin)系统过滤掉之前被标记为低质量分类的物种,分配给同一SGB的“低质量”物种被合并,只考虑具有代表性的SGB;
- 使用UniRef90库中长度在150到1500个氨基酸之间的所有蛋白质构建泛蛋白质组;
- 开始迭代,尽可能找到多达150个unique markers,仅保留那些具有至少10个unique markers的物种。根据uniqueness得分将候选markers分为unique markers和quasi-markers,uniqueness值为零的候选markers为unique markers。
具体迭代方法根据“coreness”、“uniqueness”和“external_genomes”值的组合定义四层unique markes。“A”层:coreness值>80%的泛蛋白组,uniqueness<2,external_genomes_UniRef90值<10,external_genomes_UniRef50值<5;“B”层:coreness值在70%和80%之间、uniqueness_UniRef90和uniqueness_UniRef50值为5,external_genomes_UniRef90值<15,external_genomes_UniRef50值<10;“C”层:coreness值在50%和70%之间、uniqueness_UniRef90值<10、uniqueness_UniRef50值<15,external_genomes_UniRef90值<25,external_genomes_UniRef50值<20;“U”层:泛蛋白组中仅包含一个基因组的物种markers,uniqueness值为零。

评分函数:
评分函数将优先选择在进化分支中高度保守的候选markers(高coreness值),尽可能少的与其他物种共享(低uniqueness值)。按层型分配候选markers,如果识别超出50个候选markers,将从排名中选择多达150个markers;如果没有确定足够的markers(<50个),则用下一层阈值重复该过程;如果使用C层阈值没有识别markers,则丢弃该物种。

- 将markers序列分成150bp的非重叠块,使用bowtie2与全部基因组比对(参数‘-a --very-sensitive --no-unal --no-hq --no-sq’),如果在已识别的目标参考基因组中发现至少150个marker序列的连续碱基,将会根据“uniqueness”值计算识别新的物种。
- 为减少假阳性,使用CAG(Co-Abundance gene Groups)对获得的基因组物种的marker进行分析,如果超过50%的markers与CAG基因组提供分类物种共享,删除CAG物种。
最后,MetaPhlAn数据库包括:物种markers的序列、共享markers的物种列表、序列长度和物种分类。
为了更好的理解ChocoPhlAn3数据库的生成过程,我们来了解下UniProt/UniRef数据库。
UniProt/UniRef数据库
UniProt(全称:Unified Protein)数据库是目前信息最丰富、资源最广的蛋白质序列数据库,整合Swiss-Prot、TrEMBL和PIR三大数据库的数据。
UniProt包含3个部分:

- UniProtKB(全称:UniProt Knowledgebase)是蛋白序列、功能、分类、交叉引用等信息存取中心,主要由两部分组成:UniProtKB/Swiss-Prot 和 UniProtKB/TrEMBL。
- UniProtKB/Swiss-Prot:高质量的、手工注释的、非冗余的数据集,主要来自文献中的研究成果和E-value校验过的计算分析结果,有质量保证的数据才可被纳入该数据库。
- UniProtKB/TrEMBL:该数据集主要包含对基因组数据进行高质量计算分析的注释结果,用于应对在人工校验时间和人力上的不足无法获得大量数据流的基因组项目。三大核酸数据库EMBL-Bank、GenBank、DDBJ中注释的编码序列被自动翻译后纳入该数据中,也包含来自PDB数据库序列,以及Ensembl、Refeq、CCDS基因预测序列。
- UniParc(全称:UniProt Archive)是一个综合性的非冗余数据库,包含所有主要的、公共的数据库蛋白质序列。由于蛋白质可能在不同的数据库中存在,并且同一个数据库中可能有多个版本,为去冗余,UniaraParc对每条唯一的序列只存一次,无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。该数据库仅包含蛋白质的序列信息,没有注释数据。
- UniRef(全称:UniProt Non-redundant Reference)将密切相关的蛋白质序列组合到一条记录中,以减少序列数量,提高搜索速度。包含UniRef100、UniRef90、UniRef50三个子库。
UniRef数据库的创建旨在提供蛋白质序列空间的完整覆盖范围,同时消除序列冗余并减少序列数量,从而提供相似性序列的速度,同时通过更均匀的序列空间采样改进远距离关系的检索,减少结果误差。UniRef每条聚类记录都包含数据来源、蛋白质名称和分类等信息。全面的序列覆盖、序列冗余的减少以及与UniProtKB中功能注释的紧密关系,使得UniRef广泛用于基因组注释、蛋白质家族分类、系统生物学、结构基因组学、系统发生分析、质谱分析等多个研究领域。

UniRef数据库生成过程:
- 以数据库UniProtKB包括各种剪接变异体的全部数据和 UniParc部分序列作为UniRef数据库的序列集;
- 基于CD-HIT分层生成UniRef数据库;由原始的UniRef数据库序列集生成UniRef100子库,然后基于UniRef100生成UniRef90子库,再基于UniRef90生成UniRef50子库;
簇代表成员选择:
- 优先选择UniProtKB/Swiss-Prot、其次UniProtKB/TrEMBL、UniParc的成员;
- 首选蛋白质名称中不包含‘hypothetical’或‘probable’等词的成员;
- 首选模式生物;
- 序列最长的成员;
UniRef数据库每两周更新一次,并以XML格式存储数据,同时也提供仅包含代表成员名称和序列的fasta格式的数据。数据库下载网址:https://www.uniprot.org/downloads

UniRef记录包含以下信息:
- 一般簇信息:
- UniRef ID:由代表成员的登录号衍生而来,例UniRef90_P69905,UniProtKB登陆号是P69905;
- 簇名:代表成员的蛋白质名称;
- 成员计数:簇中序列数;
- 通用分类:所有成员共享的最低分类节点,具有相应的NCBI taxonomy;
- 代表成员:代表成员的登陆号;
- 种子成员:种子成员的登陆号,CD-HIT以最长序列作为种子进行聚类,存在与代表成员不统一的情况;
- 父簇:UniRef90/UniRef50中聚类的父UniRef ID;
- 具有序列长度和CRC64校验和的代表成员的蛋白质序列;
簇成员信息:
- 源数据库(UniProtKB或UniParc)以及每个序列对应的ID和登录号;
- UniRef标识符:源序列所属的子UniRef100/UniRef90簇的ID;
- 蛋白质名称:从UniProtKB中提取,或者UniParc、RefSeq、PDB、Ensemble数据库中提取,部分UniParc缺少蛋白名称;
- 生物名称和NCBI taxonomy ID:在 UniParc中包含多个 Ensembl 信息的情况下,源信息按以下模型生物的顺序优先选择:人、小鼠、大鼠、苍蝇、狗、鸡、河豚、四齿兽和爪蟾。一些UniParc 条目缺少有机体信息;
- 序列长度;
参考:Integrating taxonomic, functional, and strain-level profiling of diverse microbial communities with bioBakery 3

2、ensemble数据库,ensemble数据库介绍
ESB作为常用的医疗平台软件,希望有兴趣的研发人员可以看看
1.检查三台服务器
1)三台服务器分别重新命名,例如ESB-63
2)三台服务器都要关闭防火墙,仲裁机也要关闭防火墙
3)正式ESB最好都安装在D盘,D盘的存储空间要大一些,磁盘空间多留
4)保持三台服务器的硬盘统一
PS:一定要检查三台机器的命名,然后重新命名,不然镜像不容易同步
2.拷贝ESB相关的安装东西到三台服务器,进行相关安装
1)拷贝文件准备好,打包好
2)安装的文件路径建议是 E:ensemble,坚决不要安装在C盘
3)最初安全设置选择正常
4)默认密码以各项目地的标识命名
PS:配置的时候,要选择未分配
3.设置镜像 创建镜像以及异步成员、再创建数据库
0 ) 导入license,两台服务器

1)启动ISCAgent,改为自动
2)创建镜像名称 ESBMIRROR
4.登录管理界面,进行相关设置
1)设置journal 如 E:journal 两台服务器
2)先新建数据库 不要有空格,资源名称可以共用
a)CENBOOMHGLOBAL
文件夹: e:ensembledatacenboomhcenboomhglobal
b)CENBOOMHGLOBALENSTEMP
文件夹: e:ensembledatacenboomhcenboomhglobalcenboomhglobalenstemp 不设镜像数据库,其它均设置
c)CENBOOMHGLOBALSECONDARY文件夹 (似乎默认创建):
e:ensembledatacenboomhcenboomhglobalcenboomhglobalsecondary
d)CENBOOMHROUTINE
文件夹:e:ensembledatacenboomhcenboomhroutine
命名空间:CENBOOMHPLUS
a)CENBOOMHGLOBAL文件夹: e:ensembledatacemboomhcemboomhglobal
b)CENBOOMHGLOBALENSTEMP文件夹: e:ensembledatacemboomhcemboomhglobalcemboomhglobalenstemp 不设镜像数据库,其它均设置
c)CENBOOMHGLOBALSECONDARY文件夹 : 貌似会自动创建
e:ensembledatacemboomhcemboomhglobalcemboomhglobalsecondary

d)CENBOOMHROUTINE文件夹:(镜像数据库的名称好像不一样了)
e:ensembledatacemboomhcemboomhroutine
3)再建立命名空间
CENBOOMHJIPLUS
1)映射至 %SYS 需弄明白
2)创建好后选择临时空间
5.导入代码
1)先导入Macro系列的,再导入UserLib,最后导入代码
2)导入HL7的规则和XML的XSD
3)创建 /soap/XXX 路径,两个服务器都要创建
4)设Production自动使用
PS:创建路径时,先搞个密码的进行测试,后面再进行切换,角色不行就填ALL把
PS: 分配角色后,密码与未验证可以进行切换
PS: 必要的资源貌似可以不填
PS:按ID分组%ISCMgtPortal貌似是要填下
6.创建其它
1)这是一个正式环境的标识符
2)看jdk和Oracle等是否已经装上
3)看镜像数据库是否搭建
4)创建自动清理数据的定时任务,看其它定时任务是否已经执行

5)设置自动启动Production,以及准备测试镜像
6)清理掉旧的BO,禁用旧的BS
7 ) 创建BadMessage
8)修改ESB与EIF链接配置,双向的
9)测试 cls和wsdl文件
10)HISunionService默认都是异步的
11)配置Cenboomh.HL7Service.HISSoapService
12)主备机journal存放在不同的位置
7.使用域名
我们公司的所有系统似乎都是使用域名了,域名可以在特殊时期发挥很大作用
本文关键词:ensemble数据库网址,ensemble数据库的使用方法,ensemble数据库下载基因组,ensemble数据库是蛋白质数据库吗,ensemble数据库使用教学。这就是关于《ensemble数据库,ensemble数据库介绍(宏基因组数据库ChocoPhlAn3的巧妙设计)》的所有内容,希望对您能有所帮助!




