基因的结构和数量
除了少数RNA病毒,几乎所有生物体的基因都位于双链DNA上。DNA分子是由脱氧核苷酸经过3’,5’-磷酸二酯键连接而成的大分子,其长度可用核苷酸对(bp)或核苷酸碱基对(bp)为单位来表示。
原核基因是指原核生物的DNA编码的基因,以及线粒体基因和叶绿体基因。原核基因的结构组成比较简单,包括启动区、转录区和终止区。转录区可进一步分为5’-非翻译区(5’-UTR)、编码区和3’非翻译区(3’-UTR)(图3-9)。

2.真核基因
真核基因主要是指真核生物核染色体基因组编码的基因。在真核基因的序列中,其转录区的编码序列是间断的、不连续的,其中编码氨基酸的序列叫作外显子(exon),非编码序列称为内含子(intron )。最初转录出来的mRNA(称为pre-mRNA)通过剪切将内含子去除,只留下外显子部分。在外显子部分的上下游还有一段不翻译的区域,称作UTR(un-translated region)(图3-10 )。

不同生物的基因组大小和基因数量存在很大差别,总体来讲,原核生物的基因数量少于真核生物的基因数量,低等的单细胞真核生物的基因数量少于多细胞真核生物的基因数量(表3-6)。

注:
①原核生物的基因组数据来源于美国国家生物技术信息中心(NCBI)的参考序列数据库;真核生物基因组数据引自:刘顺,屈良鹄.人类基因知多少[J].科学通报,2017,62(7):619-625.
②基因指编码蛋白质的基因。