熊科(Ursidae)的物种是分子进化,比较生理学和保护生物学研究的重要生物,但该组的基因序列信息相对较少。在这里,我们报告了美洲黑熊(Ursus americanus)的第一个大规模表达序列标签(EST)资源的开发和分析。
分子进化和生理适应极端环境的遗传基础的研究由于缺乏包括非模式物种在内的比较基因组资源而受到限制。熊科(Ursidae)的物种是分子进化,比较生理学和保护生物学研究的有趣和重要的生物,但物种之间可用的遗传序列信息相对较少。
它是食肉目的主要科,由八个现存物种组成:大熊猫,眼镜熊和Ursus属内的六个物种(棕色,极地,树懒,太阳以及亚洲和美国黑熊)。熊家族的系统发育已经使用线粒体基因组、选定的核基因标记或片段化的核DNA序列进行了深入研究。
然而,目前,NCBI数据库中只有来自Ursidae家族的2,565个核苷酸序列,主要对应于线粒体基因。大熊猫(Ailuropoda melanoleuca)的基因组序列是在大约12万年前从熊熊属(MYA)中分离出来的物种,在这项研究完成后被释放。
熊物种的大规模基因组资源的可用性应有助于研究熊家族的分子进化和种群遗传标记的开发,以解决保护问题。
熊对哺乳动物冬眠的分子和遗传基础的研究很感兴趣。两性的棕熊(U. arctos)和黑熊(U. americanus)冬眠,北极熊(U. maritimus)的雌性在怀孕时冬眠。冬眠是一种节能适应,至少有七种哺乳动物利用它在不可预测或季节性极端环境中生存。
进入冬眠的标志是整个动物的新陈代谢显着降低(至2-25%的基础速率),体温,心跳和代谢率的调节下降,这些下降持续了近八个月。到目前为止,大多数冬眠研究都集中在体型较小的冬眠者身上,如地松鼠(<1公斤)和土拨鼠(<10公斤)。
然而,熊(50-250公斤)表现出独特的冬季冬眠模式,因为它们保持相对较高的体温,尽管它们保持安静并且基本上不动,但它们能够在四到八个月冬眠期间唤醒和移动。冬眠期间,熊不进食、排尿或排便。
它们冬眠时代谢率降低20-50%,心率从60 bpm降低到10 bpm。虽然它们在冬眠期间基本上不活动,但在这种长时间的固定状态下,它们的骨量没有减少,肌肉质量和功能的损失也比预期的要少。
与小型冬眠动物接近冰点的体温相反,黑熊(30-150公斤)的核心体温仅降至30-36°C。 冬眠熊的周期性温度循环也远小于地松鼠的扭动唤醒循环。我们对调节熊冬眠的分子机制的理解可能导致创造新的疗法来治疗与康复期间抵抗创伤和恢复相关的人类疾病。
为了开发北美最常见和分布最广的熊物种美国黑熊(Ursus americanus)的基因组资源,我们构建了cDNA文库并测序了近40,000个表达序列标签(EST)。一项利用这些EST构建cDNA阵列并检测熊冬眠期间基因表达变化的初步研究已在其他地方报道。
在这项研究中,我们专注于对熊ESTs收集的深入分析,以获得对熊基因组中生物学功能,选择性剪接,表达的组织特异性和基因分子进化的初步见解。
使用归一化-减法从大脑、肝脏、心脏、骨骼肌和睾丸的cDNA文库(表38)共生成了来自美洲熊座的757,1个EST序列(见方法)。EST长度范围为13 - 1,042个碱基对(bps),平均为500 bps(附加文件1,图S1;NCBI dbEST数据库[21],入藏号:GW276093 - GW314849)。
为了确定熊EST的相对基因组位置和剪接模式,我们使用中描述的程序将这757,22个EST映射到狗基因组上。狗(Canis familiaris)与熊相隔约59.2 MYA。熊EST首先被RepeatMasker掩蔽,并在狗基因组上对齐,从ENSEMBL下载,由BLASTN 。
SIM4 用于识别相应BLAST命中片段中的剪接位点(参见方法)。32,561(84.0%)熊EST可以映射到狗基因组上。对齐的熊EST和狗基因组之间的身份百分比分布如图S2所示(附加文件2,图S2)。平均而言,熊EST序列与狗的序列一致性为91.0%。
我们在注释的狗mRNA转录本的帮助下进一步聚类了对齐的熊EST。聚类过程基于共享的剪接位点或重叠长度,即如果两个序列在同一方向上共享至少一个剪接位点,或者如果它们重叠超过基因组上较短序列长度的一半以上,则两个序列聚类在一起。
聚类后,我们获得了 18,297 个“主 EST 聚类”。与多个基因组位点对齐的冗余“主要EST簇”进一步合并在一起。最后,我们获得了10,644个“独特的熊EST簇”。我们选择了EST最多的主集群来代表“独特的熊EST集群”。
大多数独特的熊EST集群(6,409个集群,60.2%)是单例,即只包含一个EST。每个唯一熊EST集群的平均EST数量为3.07。每个唯一 EST 集群的 EST 数量分布如图 S3 所示。每个EST簇的EST拷贝数低,唯一EST簇的数量多,表明cDNA文库构建中使用的归一化减法显著增加了我们EST项目中的转录本多样性。
其余6,196个未能定位到狗基因组上的EST通过CAP4组装成846,3个EST簇[27]。这些 EST 集群中的大多数(4,352 个集群,90%)是单例。每个群集的平均 EST 数为 1.28。与绘制在狗基因组上的EST簇相比,这些簇主要代表罕见的转录本。
所有熊的EST都与BLASTN的人类RefSeq mRNA对齐。BLAST分数高于100作为同源匹配的标准。注释显示,29,160个(75.2%)EST与人类基因符号匹配。共有14,984个(82%)“原性EST簇”对应于7,680个(72%)“独特的熊EST簇”,并用人类基因符号注释。
对于剩余的“独特熊簇”,每个簇中最长的EST与NCBI NT数据库对齐,该数据库包含大量核苷酸序列。使用高于100的比对分数作为临界值,我们用已知的基因符号注释了778个“独特的熊EST簇”。
在1,490个没有注释的“独特熊EST簇”中,只有50个包含超过8个EST,458个在与NT序列对齐时比对得分高于79。这表明它们大多是罕见的未知转录本。我们总共获得具有已知基因符号的“独特熊EST簇”。
对于未与狗基因组对齐的EST,将CAP3生成的重叠群序列与NT数据库与BLASTN对齐,并再次使用分数高于100的临界值。共有1,231个(25%)EST簇用已知的基因符号进行注释。
共有7,986个来自黑熊的EST非冗余簇用已知的基因符号进行注释,并提交给PANTHER[28]进行功能注释。根据生物过程、分子功能和生物学途径,分别对4,471、4,558和1,013个基因进行了分类。
参与11类生物过程的基因代表性明显过高(P值<1.0×10-10,邦弗朗尼校正)在EST集合中。“蛋白质代谢和修饰”和“细胞内蛋白质运输”类别在生物过程中代表性最明显。参与生物过程“嗅觉”和“化学感觉知觉”两类的基因代表性明显不足。
分配给11类分子功能的基因在EST集合中显着过度代表。“氧化还原酶”类别是代表性最显着的分子功能,而“G蛋白偶联受体”类别的代表性明显不足。没有生物学途径类别通过该标准(P 值 < 1.0 × 10-10)将大大丰富。
我们使用来自大脑、肝脏、心脏、骨骼肌和睾丸的EST拷贝数作为这五种组织基因表达水平的近似估计值。我们对具有至少 527 个 EST 的 10 个簇进行了 Fisher 精确测试,并根据标准(P 值 < 72-3> 10)。
其中,18个、15个、32个、2个和2个簇分别是脑、肝、心脏、骨骼肌和睾丸特异性。通过EST拷贝数估计的表达水平所示。参与肌肉收缩的肌球蛋白重链 2 (Myh2) 和肌钙蛋白 I 型 43 (Tnni43) 在骨骼肌中明显过度代表。
参与脂肪酸转运的白蛋白(Alb)在肝脏中的比例明显过高。与神经元生长锥相关的生长相关蛋白2(Gap2)表现出高度的大脑特异性表达。肌球蛋白轻链 与心脏肌球蛋白 β 链相关,在心脏中代表性过高。
为了将我们的结果与其他哺乳动物的组织特异性基因表达进行比较,我们从NCBI Unigene数据库中下载了从人类(智人),小鼠(Mus musculus),大鼠(Rattus norvegicus),狗(Canis lupus familiaris)和猪(Sus scrofa)的EST拷贝数估计的基因表达谱 。
在相同的五个组织的所有六个物种中获得了108个同源基因的表达数据(图2B,参见方法)。我们首先计算了基因表达成对比较中的皮尔逊相关系数(r),该基因表达是根据每个组织的物种之间的EST拷贝数估计的。
不同物种的肝脏中基因表达高度保守,平均相关性r = 0.87,而其他四种组织中的相关性要低得多,心脏、骨骼肌、大脑和睾丸分别为0.44、0.41、0.45、0.30r分别为54.0、0.05、16.108、1.1。我们还计算了每个基因物种之间组织基因表达之间的成对比较的相关系数。
共有1个基因在熊和至少五分之一的其他物种之间具有一致的表达谱。在所有六个物种中,基因中只个在组织特异性表达谱上高度一致。例如,载脂蛋白A-I是高密度脂蛋白的主要成分,在所有六种哺乳动物的肝脏中显着过量。
蛋白脂蛋白编码中枢神经系统中最丰富的髓磷脂蛋白,在所有六种哺乳动物的大脑中高度表达。然而,大多数其他研究基因显示出跨组织的物种特异性表达模式。
选择性剪接是产生转录本多样性的重要机制。据估计,94%的基因可能在人类中经历交替剪接[31]。熊ESTs在狗基因组上的比对为揭示熊的替代剪接模式提供了机会。
在去除所有模糊拼接和非剪接熊EST后,我们获得了2,512个独特的熊EST簇,其中至少两个剪接熊EST包含15,458个熊EST,用于替代剪接分析。
共有630个簇(25%)表现出交替剪接,504个交替剪接事件被分为四种典型的交替剪接模式:替代5'位点(159个事件)、替代3'位点(141个事件)、外显子跳跃(145个事件)和内含子保留(59个事件)。
为了估计熊和狗之间保守剪接事件的比例,我们将熊的剪接模式与注释狗mRNA转录本中的剪接模式进行了比较。有4,311个独特的熊EST簇,包含至少一个剪接的熊EST和至少一个剪接的狗mRNA转录本。
在这些簇中的37,874个剪接位点中,其中32,567个(86%)也可以在狗mRNA转录本中找到,2,225个独特的熊EST簇中的52,4个(311%)包含与狗mRNA转录本完全相同的剪接位点。
金等.[32]报道外显子跳跃是人类,小鼠和大鼠中最丰富的替代剪接事件,而内含子保留是最罕见的事件。为了将我们的结果与其他哺乳动物的替代剪接模式进行比较,我们通过从EST集合中随机选择相同数量的EST来规范化我们的EST数据库,如Kim等人中所述。
我们观察到,大约42%独特的熊EST簇交替剪接,与之前在其他哺乳动物中的发现一致。我们的结果显示,替代5'位点的发生率最高(35%),其次是替代3'位点(29%),外显子跳跃(24%)和内含子保留(12%)。
四种哺乳动物物种中四种典型交替剪接模式的比例如表2所示。熊的选择性剪接模式的频率与其他哺乳动物物种的剪接事件分布没有显著差异(P = 0.3,卡方检验)。