微生物基因组学(Genomics)是利用全基因组DNA序列研究微生物基因及其功能的学科。近年来,由于DNA测序自动化与信息技术的飞跃发展,用1~2年时间就可完成一种微生物的全基因组序列测定。自1995年美国首次将第一个原核细菌—流感嗜血杆菌的全基因组序列公布以来,目前至少已有32种病原菌的全基因组测序已告完成,另有超过20多种病原菌的全基因组测序正在进行,数以万计的病原菌基因将被鉴定出来。
细菌是一大群原核细胞型微生物,其基因组比真核生物的基因组要小得多,仅为人类基因组(31.647亿碱基对)的百分之一到千分之一,而且没有内含子结构,是试验基因测序及分析方法的理想系统。多年来,科学家对细菌的生理学、细胞学、分子生物学和致病性研究所获得的大量知识,使细菌成为研究和分析基因组序列与相关生物学功能关系的理想模式。细菌基因组研究的关键方法与策略,对完成多细胞真核生物,如美丽线虫(Caenorhabditiselegans)、果蝇、小鼠、基准野草(Arabidopsis thalians)乃至人类全基因组的草图具有重要指导意义。
绝大多数细菌的基因组是单一闭合环状的双链DNA分子,大多数细菌基因组的大小介于0.6~4.7Mb,最大的大肠埃希菌含有4.64Mb。最近研究发现,霍乱弧菌的基因组由两个环状染色体组成,大小分别为2.96Mb与1.07Mb。原核细胞型微生物基因组的大小与其代谢及形态学的复杂程度成比例。支原体、疏螺旋体、密螺旋体和立克次体的基因组大小均小于1.5Mb,如生殖器支原体染色体为0.58Mb。它们有些是专性细胞内寄生的微生物,另一些则要求苛刻的培养条件才能生长。在同种或同属的细菌中,它们的基因组大小的差别不大。
细菌基因组的排列特征是:一些基因可在染色体上单独存在,转录为一种mRNA,翻译为一种蛋白质;而大多数情况下,编码相关功能的一小串基因位于一个操纵子上,自一个启动子开始,转录成多基因的mRNA分子,翻译成多种功能相关的蛋白质。细菌蛋白质的分子量平均为45kDa,因此可推算出编码蛋白质的基因的平均长度为1.1kb。细菌染色体序列分析表明,大肠埃希菌有4288个基因,其中1/3基因的功能不清楚。基因之间的距离大约为118bp,距离大于600bp的基因很可能含有独立的调节序列。细菌基因组分析真实反映了细菌染色体编码的产物。在大肠埃希菌中鉴定的蛋白质为细菌的动力、趋向性、物质转运、生物合成、生物氧化等多种生命活动所必需。
病毒基因组的化学成分为DNA或RNA,籍此分为DNA病毒和RNA病毒两大类。病毒核酸与细菌核酸不同,可呈线型或环型,分为双链RNA、单链RNA、分节段RNA、单链DNA或双链DNA。病毒核酸的大小差别悬殊,例如,人类细小病毒仅由5kb组成,而最大的痘类病毒则含有4Mb。病毒基因的转录与转译均需在细胞内进行,因此,病毒基因组的组成与真核细胞的基因组相似,而不同于细菌等原核细胞的基因组。例如,细菌基因组无内含子,而病毒基因组中有内含子,需通过转录后剪接和加工;病毒核酸存在基因重叠现象。
病毒的核酸是决定病毒的感染性、复制特性和遗传性的基础。随着病毒基因克隆、序列分析及基因表达等技术的应用,目前几乎对所有病毒科的代表病毒进行了基因克隆与核苷酸测序。病毒基因的序列对于了解可能编码的病毒蛋白的数量和性质、病毒基因复制和表达的调控机制具有重要意义。
由于大多数细菌的基因组大小一般在0.6~4.7Mb之间,快速核苷酸序列测序的策略需借助于经典的鸟枪法(shot gun)建立基因文库,然后进行随机克隆测序。这种方法首先用于流感嗜血杆菌全基因组序列测定,目前几乎成为微生物全基因组序列测定的标准方法。其基本步骤为:先将细菌染色体DNA机械性随机切割成一定大小的DNA片段,分别插入质粒载体以构建二套DNA文库,即:
(1)小片段文库:选择平均约为2kb的切割产物,将末端补平,克隆到经Smal处理过的克隆载体(如pUC18/pUC19、pBluescript系列)上。选择这种分子量范围的小片段,其目的是尽量减少单个插入片段中存在完整基因的可能性。因为某些基因表达毒性产物可导致宿主菌死亡,使该片段丢失,导致测序过程中缺口总数增多。
(2)大片段文库:包含15~20kb的随机切割产物,克隆到λ噬菌体载体中。
此外,还可以用多种限制性内切酶分别消化细菌染色体DNA,回收一定大小的DNA片段,将这些片段克隆到相应的限制性内切酶消化过的测序载体中。这样就可以获得多种内切酶的不完全文库。文库构建完后,可进行大规模的测序。
每个从DNA测序仪上读取的原始序列,首先经过一个简单的程序,将两端载体序列切除,然后集中到一个数据库中。目前用于组装全基因组的计算机程序主要是美国基因组研究所所编制的TIGRASSEMBLER软件。高质量的序列片段和每条序列片段的长度为400bp是该软件成功拼接的保证。但组装后的序列片段之间仍有缺口存在,需用DNA印迹法、蛋白质连接法、大片段文库法和长距PCR等方法才能将所有缺口补平。
DNA序列拼接工作完成后,经过计算机分析,完成全基因组各个区域的编号和注释,最后存入数据库,并在互联网上发表以供全世界的科学家参考和使用。
截止2001年底,已完成55种微生物的基因组测序工作,其中包括29种病原菌(表1-1),有130余种微生物的基因组序列正在测定中。在多个互联网中(如
表1-1 已完成基因组测序的致病菌及其所致疾病
病原菌株 | 所致主要疾病 |
流感嗜血杆菌(H.influenzae)Rd 幽门螺杆菌(H.pylori)26695和J99 大肠埃希菌 K12(E.coli K12)MG1655 大肠埃希菌O157:H7 结核分枝杆菌(M.tuberculosis)H37Rv 麻风分枝杆菌(M.laprae) 胎儿弯曲菌(C.fetus)NCTC11169 产单核细胞李氏菌(L.monocytogens)EGD-2-e 脑膜炎奈瑟菌(M.meningitides)A型Z2491和B型MC58 淋病奈瑟菌(N.gonorrhoeae)FA1090 化脓性链球菌(S.hemolyticus) 福氏志贺菌(S.flexneri)2a * 表皮葡萄球菌(S.epidermidis) * 铜绿假单胞菌(P.aeruginosa)PA01 霍乱弧菌(V.cholerae)N1696 肺炎链球菌(S.pneumoniae) 产气荚膜梭菌(C.perfringens) 空肠弯曲菌(C.jejuni) 鼠疫耶氏菌(Y.petis)C092 杜氏嗜血杆菌(H.ducreyi) 百日咳鲍特菌(B.pertussis) 伤寒沙门菌(S.typhi) 肠炎沙门菌(S.enteritidis) 白喉棒状杆菌(C.diphtheriae) 伯氏疏螺旋体(B.burgdorferi)B31 梅毒螺旋体(T.pallidum)Nicholas 钩端螺旋体(L.interrogans) * 普氏立克次体(P.prowazekii)MadridE 康氏立克次体(R.conarii)Malish7 肺炎衣原体(C.pneumoniae)CWL029和AR39 沙眼衣原体(C.trachomatis)D/UW-3/Ck和Mopn 生殖器支原体(M.genitalium)G-37 肺炎支原体(M.pneumoniae)M129 溶脲脲原体(U.urealyticum) | 脑膜炎、中耳炎 胃炎、消化性溃疡 肠道感染、泌尿系统感染 出血性结肠炎、溶血性尿毒综合征 结核病 麻风 胃肠炎 李斯特菌病、流产 脑膜炎 淋病 化脓性感染,败血症 泌尿系统感染、细菌性心内膜炎、败血症 局部化脓性感染等 霍乱 肺炎、菌血症、脑膜炎 气性坏疽、食物中毒 鼠疫 百日咳 肠热症 肠炎 白喉 梅毒 钩体病 钮扣热 急性呼吸道感染、动脉硬化症 沙眼 呼吸道疾病 |
*:为我国科学家完成的测序项目
细菌全基因组序列测定完成后,更重要的任务是鉴定基因及尽可能确定基因的功能,称之为后基因组学。通常采用开放读码框(ORF)推定、密码子使用和同源性比较等技术鉴定基因。应用新近出现的软件BLOCK、PROSITE、BEAUTY、MOTIFFINDER等,将基因组中的功能性序列序区鉴定出来。主要分析内容包括:①发现开放读码框和排除重复序列;②查询基因和蛋白数据库;③检查用码倾向;④检查功能位点。
病原菌全基因组测序的重要用途是:研究和鉴定有关的毒力基因,寻找抗菌药物作用的靶位以及编码保护性抗原的基因。例如,采用BLAST软件,将预期的编码序列与GenBank数据库中已知基因的序列作比较,在苍白螺旋体1041个基因中搜查出可能是毒力因子的有70个,而其中只有半数认定与毒力相关。采用PHD软件可以预示细菌基因组中的跨膜蛋白序列,用SIGNALP软件可将一些基因的信号序执业兽医列识别出来。此外,应用基因敲除法(knock-out)、条码标记诱变(signature-taggedmutagenesis)技术,以及遗传性足迹试验等方法,亦可发现一系列与细菌致病作用有关的基因。
将种属密切相关的细菌全基因组序列进行比较,可以获知细菌基本代谢的保守基因和特异性基因。利用高密度寡核苷酸微阵列(high density oligonucleotide arrays)杂交技术,即DNA芯片(DNA chip)技术,可以确定病原菌基因在宿主中的表达情况。
微生物基因组序列测定完成后,后基因组学的主要目标应是,综合利用各学科的优势与技术,阐明各个基因的功能,找出毒力因子和具有保护宿主功能的因子,为开发新的治疗药物和新型疫苗奠定基础,为防治疾病找到更加理想的途径。目前,后基因组研究采用的主要技术有:
DNA芯片技术 美国1998年正式启动“BIOCHIP”计划。DNA芯片技术的基本原理是:①合成成千上万特异的寡核苷酸探针,密集点布并固定在只有邮票大小的硅片、玻片或尼龙膜等固相支持物上,即制成DNA芯片;②抽提不同条件下的样本mRNA,用荧光染料标记后,与DNA芯片上的列阵探针杂交;③应用共聚焦显微镜扫描,记录杂交结果,对杂交位点及其信号强弱进行分析,找出差异表达的基因。通过电脑分析,可以判别标本中的特异性病原。
DNA芯片可用于基因诊断、设计基因药物等。例如,结核分枝杆菌H37RV株全基因组序列为4.41Mb,有3 924个开放读码框编码蛋白质,用含97%开放读码框的DNA芯片检测结核分枝杆菌对异烟肼反应的基因,发现异烟肼诱导表达的基因包括一个操纵子基因簇,由5个基因组成。利用DNA芯片,比较结核分枝杆菌H37Rv、牛型结核分枝杆菌和卡介苗3个菌株之间的差异,分析卡介苗保护效果不一致的原因,得到一些有意义的结果,证明卡介苗菌株一直在不断演变。
体内表达技术(in vivo expression technology) 首先要建立DNA文库,将DNA片段与某www.med126.com些缺失了启动子的基因连接,只有插入的DNA片段具有启动子活性,细菌才能在宿主体内生存。识别这些基因,可以初筛不同入侵阶段表达的基因及其对致病的影响程度,以及宿主如何控制致病菌基因的表达。
基因中断技术(gene disruption) 包括条码标记转座子诱变(signature-tagged transposon)和等位交换(allelic exchange)等方法,其原理是:带标记的具有不同特征的转座子或质粒DNA片段称为tag。tag一般约为80bp,可分为臂和可变区两部分,臂位于两端,可供设计PCR引物。用带tag的转座子或质粒构建不同基因被中断的突变株,获得的突变株各有一个特异的tag。用一组带不同tag的突变株接种动物模型,筛选突变后毒力减弱或消失的突变株,从而鉴定出毒力基因。
基因互补法(gene complement) 将毒力株的基因克隆到同种或近种无毒/弱毒株中,观察毒力的改变及程度,筛选使后者毒力增强的基因。应用该方法发现结核分枝杆菌H37Rv株有EIS(enhanceintracellular survival)基因,而在牛型结核分枝杆菌和卡介苗中不存在。
差异荧光诱导法(differential fluorescent induction) 用于识别被宿主特定细胞和特定条件诱导的病原体基因及其启动子。常用绿色荧光蛋白(GFP)作为标记,可以自动化、高通量筛选,不涉及代谢营养要求。
双向凝胶电泳与质谱技术 蛋白质是生物功能的主要表现者,是致病微生物主要的致病因子之一。细胞内全部蛋白质及其活动方式称为蛋白质组。蛋白质组学(proteomics)是在基因组学基础上形成的新兴学科,是以蛋白质组为研究对象,从分子水平上研究细胞内蛋白质的组成及其生命活动的规律。蛋白质组可以分析非转录水平控制的细胞过程,补充DNA芯片等技术的不足。同基因组相比,蛋白质组在时间、空间上具多样性,变化性大。蛋白质组学的研究主要包括:①细菌新蛋白质及蛋白质翻译后修饰的鉴定;②细菌在不同状态下的蛋白组学的比较;③细菌蛋白质之间的相互作用,有助于设计新的防治微生物感染的方案。
蛋白质组学需要各种类型的技术支撑,包括分离蛋白质的凝胶电泳技术如双向聚丙烯凝胶电泳(2D-PAGE),确定蛋白质特性的质谱(MS)分析技术等,并在不断发展新的研究技术,可以一次分离几千甚至上万蛋白质点和鉴定出翻译后加工的机制。
获得微生物全基因组序列是认识微生物完整生物学功能的基础。完整的基因组序列资料有助于更精确地研究微生物的形态发生、生长代谢、遗传变异,鉴定有关的毒力及致病基因和抗微生物药物作用的靶位,为研制和发展特异的诊断试剂和疫苗提供参考。
阐明病原微生物致病基因及其产物,对于了解其致病机制至关重要。根据病原微生物的全基因序列,应用现代生物信息软件对基因序列进行分析,可以确定哪些基因与毒力有关,那些与体内定居有关,哪些与体内持续感染有关。例如,流感嗜血杆菌的全基因序列测定完成后,很快就鉴定出25种与脂多糖生物合成相关的新基因,而在此之前仅发现7个基因。又如,研究发现,结核分枝杆菌异枸橼酸裂解酶基因和环丙烷合成酶编码基因是造成持续感染的关键基因。异枸橼酸裂解酶在细菌利用脂肪酸为碳源的代谢中十分重要。当结核分枝杆菌侵入机体后,免疫系统介入,感染则由急性转入持续感染,该菌转为利用脂肪酸作为碳源这一代谢旁路。
通过全基因组测序及菌种(株)间基因组比较,发现一些可在细胞表面定居的细菌(如流感嗜血杆菌)的表面粘附分子受多重重复序列(multiple repeating sequences)控制,故可将该序列作为细菌粘膜定居的标记基因。比较结核分枝杆菌与卡介苗的全基因组序列时发现,卡介苗的一些菌株有16个区段存在核苷酸缺失,长度为1903~12 733bp不等。
由于细菌的致病基因往往有特殊的核苷酸序列,因此,在全基因组序列测定的基础上,用计算机分析可找出毒力基因的热点区—毒力岛(pathogenicity island)。毒力岛是一组编码细菌毒力的基因簇,为染色体上一个分子量较大(>30kb)的DNA片段,常位于tRNA位点内或其附近,两侧可有重复序列(RS)或插入序列(IS)。毒力岛的发现为研究细菌的致病性和毒力因子提供了有效的途径。但有关细菌毒力岛的来源及其在不同细菌间水平转移的机制尚不清楚。
对病原菌致病基因研究的传统方法是采用单个基因敲除或突变的方法,即通过观察某一基因的丧失或突变对病原菌功能的影响,然后通过动物模型,确定该基因与细菌致病作用的关系。但该方法具有明显的局限性,难以从病原菌众多的基因中鉴定出致病基因及致病基因间的相互关系。近年发展的条码标记诱变技术可同时诱变多至100个基因,产生基因敲除突变库,并在各个被敲除的基因原位插入各自独特的易被鉴定的条码。将这些突变菌株分别接种动物,并观察它们在动物中的致病能力。通过鉴定该突变菌的特定条码,即可从基因敲除突变库中筛选出某一致病相关基因。应用这种“条码标记诱变”技术已成功地应用于多种重要病原菌(如伤寒沙门菌、金黄色葡萄球菌及霍乱弧菌等)的致病性研究。
目前,对病毒的基因组研究已进入后基因组阶段,即从全基因水平研究病毒的生物学功能,发现与致病及诱发免疫应答相关的基因,从而揭示病毒与宿主之间的相互作用。例如,对病毒基因组或基因变异研究,有可能揭示致肿瘤病毒的部分致病机制,揭示与持续性感染相关的基因、基因变异或调控因子。
可以预见,在微生物基因组学的基础上,细胞微生物学、微生态学、微生物生理学将从分子水平和细胞水平上揭示微生物之间、微生物与宿主之间、微生物和宿主与环境之间的相互作用,更深入地阐明病原微生物的致病机制,诸如细胞中微生物的受体,侵入细胞内微生物的定位和新表位的发现,对细胞器的影响和作用,宿主神经系统和免疫系统的反应等,从而更好地维持人体微生态平衡,提高机体抵抗力。
传统的病原学监测和诊断依赖于致病微生物的形态和培养特征。通过测定多种致病与非致病微生物的基因组序列,可以获得大量的基因信息。如特异DNA序列用于诊断,菌株特异性基因用于分型,特异性毒力基因用于判断疾病进展,耐药基因用于预测临床治疗效果等。
近年来,微生物全基因序列测定工作的进展,使微生物的分子诊断技术发生了革命性的变化。例如,运用多对引物同时对多个可能的靶DNA片段进行扩增的“多重PCR”技术,不仅大大提高了诊断效率,还可对单一标本作出多种常见病原体的诊断。最近发展的DNA芯片技术更是核酸杂交技术的一次革命性飞跃,其用途包括:①鉴定病原微生物种类,进行临床诊断;②用特异的寡核苷酸探针对病原微生物进行型或亚型分类;③用毒性基因或抗性基因特异的寡核苷酸探针预测疾病进展,监测抗微生物药物的疗效等。
自1973年以来新现病原微生物有30多种,再现病原微生物有20多种,对人类的生存和发展构成巨大的威胁。但是,人类迄今未能研制出特效抗病毒药物,抗生素的泛用和滥用导致耐药菌株不断增加。因此,迫切需求发展新型高效的抗微生物药物。
病原菌全基因组序列的测定,一方面能揭示细菌耐药的确切机制,对现有抗菌药物进行改造或开发新型药物;另一方面可找到对细菌生存必不可少并在感染过程中常优先表达的因子,选择这些因子作为抗菌药物的靶位点,可设计出具有针对性很强的药物。通过与人类基因组序列比较,还可及早排除与人类同源的靶位,避免对人的毒副作用,降低药物开发风险。
病原微生物全基因组序列的测定还可大大加速新疫苗的研制。通过先进的计算机软件对全基因组序列进行分析,可以预测出病原体的保护性抗原。这类蛋白抗原通常表达于细胞表面,并具有很高的免疫原性。从病原微生物全基因组序列中直接筛选高免疫原性的分析系统的开发与应用,将为预防及治疗性疫苗的研制提供极大便利。
本世纪初,微生物基因组学的成就将很快体现在微生物产业中。通过构建更多高效的基因工程菌,可生产出各种外源基因表达的产物,包括抗癌、抗病毒、调节宿主免疫功能的药物,以基因为靶标的新药物(包括反义寡核苷酸、核酶和DNA疫苗等)也将投放市场。
微生物全基因组序列的测定和分子生物学技术的飞速发展及应用,将为人们提供更多的关于微生物致病性及其与宿主之间相互关系的信息。深入研究病原微生物如何利用宿主细胞功能,将有助于加深对细胞微生物学的认识。
某些蛋白与人类一些遗传性疾病(如遗传性非息肉性结肠癌、肝豆状核变性、肾上腺脑白质营养不良症等)关系密切。微生物基因组序列的分析表明,在某些微生物中存在这些蛋白的类似物。通过以这些微生物为模型,可以研究这些蛋白及其编码基因在人类遗传性疾病中的作用。例如,肾上腺脑白质营养不良症患者的神经退行性病变,是由长链脂肪酸代谢障碍引起的。研究发现,与此代谢有关的两个基因的类似序列在酿酒酵母菌中也存在。通过对酵母菌相关基因的研究,表明这两个基因与激活长链脂肪酸的转运有关。据此推测该基因缺陷在肾上腺脑白质营养不良症发生中起类似的作用。因此,微生物全基因组序列测定及相关基因功能研究,有助于推测特定基因变异在人类遗传性疾病中的作用,提高对人类遗传性疾病的诊断和治疗水平。
据新近的估计,微生物的生物量占整个地球生物量的60%,而目前已知的微生物物种数占地球上实际存在的数量还不到10%,因此,寻找和鉴定微生物的工作将是微生物学家的一项重要任务。随着微生物基因组全序列数据的迅速增加,人们对微生物在生命世界中的进化地位将有更准确的界定,对微生物之间的亲缘关系会有更深刻的了解,鉴定新发现微生物的能力迅速得到提高,并加深对基因功能的认识,发现更多的前所未有的新功能。例如,新近对詹氏甲烷球菌(Methanococcusjannaschii)全序列测定的结果证实了微生物学家曾经提出的第3生物的科学预见,并有助于从分子水平上了解产生甲烷的遗传性状和基因调控。又如。对特别能耐受辐射的耐辐射球菌(Deinococcusradiodurans)基因组序列的测定和功能的研究,发现该菌具有超常的修复辐射损伤的能力,有可能利用其来消除环境中的重金属和毒物污染。同样,可以利用那些能够生活在极冷、极热或高压、高盐、高酸等极端环境中的细菌的功能基因,通过基因工程来改良农作物和家畜,甚至有可能让人类“学会”细菌的这些生活能力。
结束语
随着为数众多的微生物基因组被解码和微生物功能基因组的研究与开发,微生物学正面临着革命性的飞跃。微生物基因组研究所获得的信息将迅速地转化为生产力,主要表现为微生物感染性疾病的防治与诊断将会彻底得到改观,微生物作为模式生物将进一步促进生物学和生命科学的发展。
微生物基因组学的研究为生命科学开辟了新的研究领域,如生物信息学、比较基因组学、功能基因组学等,也带来了新的研究思路和策略。生物信息学是用数理和信息科学的观点、理论和方法,研究蛋白质和核酸序列的结构与功能的一门生物学与计算机信息交叉的学科,其主要内容有二个:一是收集基因组和蛋白质组的数据;二是分析、解释基因组和蛋白质组的内涵。可见,生物信息学将生命科学由传统的实验科学提升为理论科学,将成为21世纪生物技术的核心。
通过对多种微生物的基因组作比较,可以鉴定出哪些基因是某些特定功能所必需的,确定哪些基因与病原菌的致病或毒力有关,而这些基因的蛋白产物可能是具有很高免疫原性或抗菌药物作用的靶位点。比较基因组学研究对进一步了解微生物的起源、进化和种系发育等带来契机。
近年新兴的微生物蛋白组学(microbial proteomics)技术与遗传学、分子生物学、蛋白质生化与生物物理学方法结合一起,可以从复杂的蛋白质混合物中高通量分离、纯化、检测和鉴定微量蛋白质。微生物蛋白组分析法将为进一步研究微生物基因功能、蛋白质与基因、蛋白质与蛋白质的相互作用提供有用的工具。
(郭辉玉 中山大学中山医学院)