最近二十几年，自然科学领域有哪些常识或理论得到了修正？

日报标题：埋藏基因组秘密的宝库，居然被认为是「垃圾」DNA

吴思涵，欢迎关注专栏

来抢答个生物学领域的——“垃圾”DNA（Junk DNA）其实是埋藏基因组秘密的宝库。

有时候觉得 80 后还挺幸福，见证了许多科学大跃进的里程碑式事件。在生物学领域，最著名的莫过于人类基因组计划（Human Genome Project，HGP）和 DNA 元件百科全书计划（Encyclopedia of DNA Elements，ENCODE）。

人类基因组计划（HGP）于 1990 年启动，旨在将构成人基因组的碱基对全部测明。其实在全基因组完全测明之前，科学家已经大致估计出，人类全基因组大概包含了 30 亿碱基对。而基于当时对已知基因长度的认识，科学家也推算，这 30 亿碱基对中，至少包含了 10 万个基因。可是在 2003 年宣布 HGP 精确图谱完成后，发现编码蛋白质的基因大概只有 2.1 万个，其碱基对数量仅占全基因组不到 2%。换句话说，超过 98%的碱基对，根本不“编码”蛋白质。

那这超过 98%的非编码 DNA 到底是什么东西呢？其实早在 HGP 之前，大概还是上世纪 60 年代的时候，科学家已经发现，人类大部分的基因组并不编码蛋白质，并据此提出“Junk DNA”（垃圾 DNA）这个概念。在一篇博文里面，提到 Junk DNA 的起源是 1963 年的一篇论文“Charles Ehret and Gérard de Haller － Origin, development, and maturation of organelles and organelle systems of the cell surface in Paramecium.” 发表于 Journal of Ultrastructure Research。在第 39 页，有一句：

“While current evidence makes plausible the idea that all genetic material is DNA (with the possible exception of RNA viruses), it does not follow that all DNA is competent genetic material (viz. ‘junk’ DNA), nor that all Feulgen-positive material is active DNA.”

而将“垃圾 DNA”这个词推广开来的，是遗传学家 Susumu Ohno 在 1972 年搞的事。他的本意是拿 Junk DNA 来指代假基因，以表达那些 DNA 是不具备功能的意思。

而这个说法，一直到 90 年代，也就是我们 80s 上学的时候，还依然存在。或许在某些 80 后的中学生物课堂，当讲到人类基因组计划时，老师会提到“垃圾 DNA”这个违反直觉的认识，以及提醒我们这个说法尚待进一步研究。

其实根据“直觉”，或者说“经验”，当时早就有许多科学家质疑“垃圾”这个理解是错误的。许多年前，科学家已经知道一些非编码 RNA 的存在，比如 tRNA 和 rRNA，还有一小部分其他的非编码 RNA（如 miRNA，假基因）。而这些非编码 RNA 必然来自基因组 DNA。只是就算把那些当时已知的非编码部分给加上去，依然只是填补了 98%中的一小部分空缺。

很快，人们发现那些非编码的区域，存在着调控编码基因表达的功能，存在着更多生产其他非编码 RNA（如 miRNA，snRNA，piRNA 等等）的功能，存在着更多的假基因，存在着重复序列……

（卖个萌：我认识 miRNA 发现者之一的 Victor Ambros 和他夫人哦，还跟他们一起吃喝玩乐了一段时间~~）

在 HGP 完成的同年，另一个里程碑式的计划——ENCODE 计划，正式启动，并于 2012 年宣告完成（当然，这个完成是个相对概念）。而这个计划最大的发现，就是约 80%的人类基因组是有功能的。这样一来，大量的空白就被填补上了——从原本的 98%的“垃圾”，变成了仅有 20%空白。而这 20%，现在的我们有理由相信，绝对存在着我们尚不理解的功能。

（卖萌 2：我对面的实验室就是 ENCODE 计划的参与实验室之一~~）

ENCODE 计划，更新了许多数据：蛋白质编码基因 20,687 个，占人类全基因组的 3%。假基因 11,224 个，而其中某些看似沉默的假基因，在某些细胞类型中却活跃转录。从全基因组角度而言，约有 76%的区域能够转录出 RNA（包括编码和不编码蛋白质的）。其中，小分子 RNA 约 8800 个，长链非编码 RNA 约 9600 个。同时，基因组还存在着大量的能与蛋白质结合并发挥特定功能的区域，而这样的位点大概有 300 万 -400 万个。目前，ENCODE 后续的工作还在进行。

从 60 年代开始就困扰着我们的“垃圾”DNA，在 90 年代开始备受质疑，到了人类基因组计划完成之日，探究“垃圾”区域的功能已是如箭在弦，势在必行。而在 ENCODE 计划宣告完成之刻，我们终于彻底推翻了落后的认识，基因组研究也进入了新的纪元。

阅读原文

Latest Images

Trending Articles

Latest Images