2007年,在和营养所陈雁教授聊天时,他对我们做的肠道菌群工作表示出浓厚的兴趣。他告诉我,他们做了一个很有意思的小鼠试验,问我们要不要看看这些小鼠的菌群有什么特点,也许能有新的发现。原来,他的博士生小韩在研究一种高密度脂蛋白基因敲除鼠。这种敲除鼠天生缺乏高密度脂蛋白这种“好的胆固醇”,吃高脂饲料容易得动脉粥样硬化,他们新发现这些基因缺陷的小鼠天生就有点胰岛素抵抗,提示这个基因与糖尿病有关系。
为了观察饮食和基因对健康的影响,他们把这种先天因基因缺陷有点不健康的小鼠与它们的基因没有缺陷的野生型对照,各分成2组,分别吃高脂饲料或者普通饲料,形成了很有意思的2种基因与2种饲料的组合:“好基因+好饲料”;“好基因+坏饲料”;“坏基因+好饲料”;“坏基因+坏饲料”。如果基因代表先天因素对健康的影响,饲料可以代表后天因素对健康的影响,它们的组合,可以看出基因和饲料谁对肥胖、糖尿病的贡献大。这样的实验组合也非常适合研究基因和饮食对肠道菌群的影响,当然,也可以观察肠道菌群与肥胖和糖尿病的关系,是个难的的实验材料。这个试验到我们聊天时已经做了快6个月了,就要收摊了,我赶紧让张晨虹去找小韩把小鼠的粪便样品采集齐全。
当时我们最拿手的实验工具只有DGGE指纹图技术。张晨虹很快就投入试验,做出了很漂亮的指纹图谱。张晨虹的脑袋瓜很灵,手脚也非常麻利,做试验又很专心。如果打电话找不到她,一准是在做试验,手机在抽屉里锁着呢。她还是个“夜猫子”,喜欢一个人通宵做试验。别的同学一周做一次指纹图分析,出2块胶,她可以连轴转,最高纪录,两台设备同时上,一天24小时做8块胶,至今未有人能破此记录。指纹图也做的非常漂亮,而且把主要的条带都割胶、克隆和测序,鉴定出每条带所代表细菌的分类地位。等她的DNA指纹图结果出来时,小韩那边的动物试验也收尾了,表型数据也给了我们。
看到各组小鼠的体重和胰岛素抵抗(代表小鼠的早期糖尿病症状)的数据时,我吃了一惊:胖得最厉害、胰岛素抵抗最严重的组合居然是”好基因+坏饲料”!一开始我们都感觉“坏基因+坏饲料”应该是病得最重的组合,没想到结果是这么出乎意料!再仔细看看进食量的数据,“好基因+坏饲料”的组合吃的高脂饲料的量比“坏基因+坏饲料”的组合要高出很多,相差大约30%吧,可能由于某种未知的原因,坏基因的动物不喜欢吃油腻的高脂饲料了。这个试验虽然规模不大,但告诉我们一个很重要的信息:动物不需要有基因缺陷就可以得严重的肥胖症和胰岛素抵抗,只要多吃高脂饲料就行了。
菌群会是一种什么状况呢?能用菌群的组成差别来解释患病程度的差别吗?
看看DGGE指纹图,结果很有意思:不管是敲除鼠还是野生型,带着同一种基因的小鼠,吃不同的饲料时,菌群结构出现很大的差别,所有的主要的条带都变了,吃高脂饲料的小鼠肠道里的优势菌与吃普通饲料的完全不一样。
为了能定量地比较小鼠菌群结构的差别,张晨虹又用一种叫末端限制性片段长度多态性分析(T-RFLP)的方法对这4组小鼠的菌群做了分析,由于这些数据是用毛细管电泳为核心的Sanger测序仪做的,因此,得到的数据比较方便做统计分析。在张梦晖的指导下,张晨虹做了主成份分析(PCA),结果很有意思:所有的动物的肠道菌群结构先按照饲料不同聚成2大类,大约菌群结构变异的56%可以用饲料的不同来解释;在普通饲料上,敲除鼠和野生型可以分开,大约12%的菌群结构变异可以用高密度脂蛋白基因的突变来解释;不过,在高脂饲料上,敲除鼠和野生型的菌群结构几乎混在一起,没有什么差别。这2种指纹图分析的结果告诉我们,饮食结构是决定肠道菌群结构的最重要的因素,其次才是基因。而且,基因造成的菌群结构的差别只在普通饲料上表现的比较明显,在高脂饲料上,几乎看不到基因的影响了。
这些结果显然很有意思,我在中法肠道元基因组合作项目交流会上做了报告,大家对这个结果都很感兴趣。
不过,DNA指纹图技术只能告诉我们肠道菌群整体结果的差别,对DGGE中的重要的条带进行割胶、测序虽然也能搞清楚它们代表什么细菌,但毕竟只能鉴定出有限的那么几十种,而且也把人累得要死要活的了。记得上海生物芯片中心的张庆华老师就常给我讲:立平,要想想办法,再不能用DGGE这样的“小米加步枪式”的方法研究菌群啦,否则什么都难以搞清楚!
我从瑞典回来以后,就让张晨虹和我们实验室负责建立新的分析技术的张晓君老师开始关注新一代测序技术在微生物群落结构分析中的应用。这个时候,好消息来了,赵国屏老师做执行主任的国家人类基因组南方中心新进来一台454测序仪,而且很快就投入运行,做基因组测序效果不错。我当时决定,用这个动物试验的样品把454测序技术进行菌群结构分析的方法在我们实验室建立起来,彻底告别“小米加步枪”的时代。
454测序技术一次可以测定几十万条DNA片段的序列,如果要用这个方法测定多个样品的菌群结构就需要把每个样品的DNA片段在序列上做唯一性标记,这就是所谓的DNA barcoding (DNA条形码技术)。最早发表这个技术思路的,是斯坦福大学医学院富尔实验室,他们与微生物系的同事合作,建立了在每一条需要测序的DNA片段两端加上独特的4个碱基的序列,作为样品的标记,然后把所有样品的DNA片段等量混合,在454测序仪里做一次测序的方法。测序结束后,可以利用DNA条码序列把每个DNA序列准确地分配到其所属的样品里,这样,每个样品就有几百乃至上千条序列了。这样做下来,虽然一次测序的成本比较高,但摊到每个样品费用在几百元,还是很合算的。要知道,我们那篇PNAS文章做了7名志愿者的Sanger测序的克隆文库分析,每个人做了超过1千条,一共花了20多万;当时如果用454做,花同样的经费,一次可以做至少300个样品。现在做,成本就更低了。甚至有人预测,DNA测序的成本最终会如此低廉,以至于测定序列的成本会低于储存这些序列的成本,到那时,人们不会储存DNA序列了,用完就把序列扔了,需要时,下一次再重测。当然,二代测序技术日新月异,454焦磷酸测序结束曾经红极一时,到今天却因为测序成本远远高于Illumina的Solexa测序技术已经退出市场了。现在测定菌群用的最多的是MySeq测序平台。
做这个工作,离不了生物信息的人才。计算机系的俞勇老师给我推荐了一名他的学生华蔚颖来我这里读硕士,经过一段时间适应,小华开始进入角色,可以在生物信息分析的软件收集、使用和修改上做工作了。我的学生曹又方是1998我在山西大学时从应用数学专业推荐到生物化学和分子生物学专业读硕士的,后来跟我到了交大。他应该是中国最早做生物信息的学生之一了,毕业论文发表在BMC Bioinformatics。小曹毕业后先留到农学院院长唐克轩的实验室工作,后来调到系统生物医学研究院管计算机平台。小曹带着华蔚颖,设计了DNA条码序列,以及从原始测序的序列开始,进行序列到样品的分配、质量控制和比对、做树、分类地位认定等等整个流程需要的软件和数据库。我们的原则是:除了用454测序仪读取原始序列这一步,所有流程要全部在自己实验室能做起来。
几个试验的样品凑在一起,第一个run测了差不多300个样品。为了检验这个方法的可靠性和重复性,包括了一些已知序列的样品,其中小鼠试验的样品又有一部分做了3次重复。这个run的原始序列出来以后,实验室的空气里充满了一种期待,大家都急切地等着最终分析结果的问世。
—————————————————–
如果喜欢这篇文章,请点击右上角分享给更多朋友;
如果喜欢本微信号,请搜微信号microbio_zhao或点击标题下方“菌群老赵”予以关注,或直接扫下面的二维码也行: