提到契丹人,我们总会想到那位义薄云天的南院大王萧峰。

真实的历史却是这样:公元1112年,辽国天祚帝耶律延禧登基已有十余载。这期间,天祚帝不理国政、生活荒淫奢侈,致使朝纲荒废、人心涣散。

这年开春,天祚帝又来到春州游玩,召集附近女真部门酋长来朝,没想他的一个决定,招来亡国杀身之祸。宴席期间,喝得酩酊烂醉的天祚帝竟然令女真酋长们为他跳舞,这彻底激怒了完颜阿骨打。拂袖而去的完颜阿骨打从此不再奉招,并积蓄力量,准备反辽。

转眼到1114年,完颜阿骨打正式起兵反辽。此时,天祚帝还沉溺在纸醉金迷之中,完全没有意识到危机即将到来。随后几年里,辽军节节败退,上京等地相继沦陷,辽国内部叛乱又不断,形势岌岌可危。

到1124年,天祚帝已失去辽国大部分土地,他自己先逃到漠北,妻儿家属大多被杀或被俘,之后又不听耶律大石等人的劝阻,执意出兵试图收复失地,结果兵败被俘,随后又被乱马踩成肉泥,一代帝王落得如此下场,呜呼哀哉!

随着辽国寿终正寝,除了耶律大石率领残部西进新疆地区建立西辽之外,大部分生活在中原地区的契丹人沦为金朝奴隶,受尽压迫,他们或隐于山林、或改姓埋名,就此神秘消失,在中华文明历史长河中留下璀璨一笔的契丹文化遗憾终结……

契丹人都去哪里呢?谁是契丹人的后裔?这已成一个千古之谜。

千百年以来,关于契丹人的传说在民间广为流传,南院大王萧峰的文学作品形象更是深入人心。多年以来,历史学家们在浩瀚的史书中试图寻找答案,却始终一无所获。例如,云南施甸县传来发现消失近千年之久的古契丹文字,当地村民自称为契丹后裔,但契丹族一直生活在北方,为何会出现在千里之外的云南地区?

转机出现在本世纪初,在一次考古活动中出土了一具完整的契丹干尸,科学家利用分子考古学技术,提取古尸的DNA,通过与现代DNA进行对比,得出结论:云南施甸地区的阿、莽、蒋三姓就是契丹族后裔,千古之谜得以解开。

一段小小的古DNA为何会如此神奇,它背后蕴含了什么神奇密码?近年来,分子考古学等交叉学科迅速崛起,充分利用大数据、AI等数字化技术,不仅帮助考古学家们解决了各种“疑难杂症”,也为考古领域注入了数字化新力量,彻底改变考古范式,而古DNA正是分子考古学的核心。

古DNA研究:为什么如此火

中华文明上下五千年,灿烂辉煌、气度恢弘,之所以有别于其他文明,很重要的一大原因是我们的文字结构一致、没有改变,通过文字将历史长河中那些鲜活的人和事记录下来,并传承有序。

但我们依然有很多未解之谜:中国人从哪里来?中国人类如何迁徙与进化的?古代丝绸之路到底从什么时期出现?古代北方地区草原游牧民族之间有哪些相互关系?古代小麦通过何种传播途径进入到中国……

这些疑问既是每个中国人生而有之的文化自觉,也是值得不懈探索的终极文明命题。过去,专家们在浩瀚书海的字里行间中寻找答案;现在,专家们则是通过分子考古学,在海量DNA数据中见微知著、由表及里探索文明的奥秘。

所谓古DNA研究是指从古代人类和动物遗骸以及古生物化石中提取的DNA,把古代DNA数据同现代基因库中的数据资料相结合,进行比对、分析,进而解决人类的起源与迁徙、民族融合等重大考古学问题。

例如在去年,吉林大学考古DNA科研团队首次对中国北方黄河流域、西辽河流域及黑龙江流域近6000年时间跨度下连续的古代人群进行全基因组高精度测定和分析,相关研究结果极富价值,为探讨中华文明的起源、形成和发展提供了重要证据。

近年来,在房山周口店山洞、三星堆发掘现场、西伯利亚亚纳河秀牛角遗址、福建奇和洞等考古活动中,都有着古DNA研究的“身影”,古DNA研究正在成为当今考古领域的一个标配。

但古DNA研究虽美,却也着实面临不少现实困难。

古DNA研究:没有那么简单

古DNA研究是当前考古研究中的前沿领域和热点方向。

但古DNA研究比现代DNA研究要难得多。这主要受自然环境各种因素的影响,DNA自溶、水解、断裂的情况普遍存在,使得古DNA很难完整保存下来,即使保存情况较好,也可能会发生其他微生物进驻并破坏DNA的情况。

另外,古DNA的提取环节也是关键,在提取环节很容易被现代人的DNA所污染。在古DNA最开始探索的阶段,时有因为污染的原因,造成古DNA提取失败。之后,人们意识到这个问题,超净室封闭环境、防护服、实验室细微操作成为提取的标配,尽量避免现代DNA污染,提升提取的成功率。

提取DNA之后,还需要比对(Mapping)至所研究物种的参考基因组(References),以及利用群体遗传学分析工具、系统发育软件等对序列信息进行分析,并与现代或者其他古代人群、动物等遗传信息进行比对,从而追溯个体或群体的来源、迁移以及融合过程等。

无论是比对(Mapping)、群体遗传学分析、还是系统发育分析,这些研究数据的处理都对算力提出高要求。尤其是二代高通量测序技术平台的开发应用对小片段古DNA分子捕获能力增强后,科研人员所能获得的DNA序列大幅提升,带来了巨大的DNA数据处理算力需求。

归纳下来,由于受各种因素的影响,使得古DNA研究远比现代DNA更加复杂。尤其是随着二代高通量测序技术的普及之后,古DNA大规模测序和获得有效数据得以实现,随之而来的就是对比与分析对算力的极度渴求,这对海量DNA数据的计算处理能力和处理效率提出了更高的要求。

破解难题,AI来提速

古DNA研究诞生于上个世纪八十年,直到最近十年才进入到繁荣阶段,很关键的因素就是数据积累、测序方法和数据分析方法三个方面都取得了长足进步,共同驱动着古DNA研究大踏步前进。

如果说古代DNA基因库是完成了原始数据积累的关键,为古DNA研究夯实了牢固的数据基础;那么,高通量测序技术的采用,能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短,并破解以往测序技术高成本的难题;而大数据和AI技术近年来的迅猛发展,则犹如一把关键钥匙,支撑起高通量测序带来的巨大基因数据的分析研究,为古DNA研究充分提速。

以吉林大学考古学院为例,作为中国古DNA研究的先行者,吉林大学考古学系早在1998年就与生命科学学院合作,成立国内首个考古DNA实验室,开展有关古代DNA方面的研究工作。

随着DNA考古研究的逐步深入,古DNA实验室已初步建立了我国边疆地区的古代DNA基因库,已有超过万例的古人类、古动植物样本,数量位居全国第一。而面对高通量测序技术所带来了大规模DNA数据处理和计算需求,吉林大学考古学院联合浪潮打造了业界领先的大数据处理平台,让自身的基因数据处理能力也处于领先水平。

吉林大学边疆考古研究中心副主任蔡大伟教授如是说:“用台式机工作站来做测序数据处理,完成一次古人类的全基因组样本分析至少需要两周,还要面临宕机带来的处理流程中断风险,以这种速度要建立边疆地区古代DNA基因库几乎是一个不可能完成的任务。”

为此,吉林大学考古学院在国内DNA考古领域首次将浪潮智算解决方案运用到古DNA基因测序之中,为吉林大学的古DNA研究提供了强大加速能力。浪潮智算解决方案可在9.64小时内完成基因组分析,48分钟完成全外显子组分析,相比于传统计算方案,基因数据处理速度提升39倍。

如今,吉林大学考古DNA实验室的科研工作者正充分借助智慧计算解决方案,对我国北方地区的草原游牧民族,如匈奴、东胡、鲜卑、乌桓、契丹、蒙古等诸族的人骨以及出土的动植物进行古DNA提取和研究工作,并开展我国新疆地区古代“丝绸之路”沿线各民族相互关系、人群间的迁徙及混杂过程、经济文化生活、自然环境与人类相互关系等相关研究。

就像行业用户加速自身的数字化转型和智能化升级一样,数字化能力也将成为考古领域未来的基本能力配置。越来越多的考古真实案例显示,数字化能力对于解决诸多千古之谜发挥着至关重要的作用。也许在不久的将来,人类就能够寻找到“我是谁,我从哪里来,我要去哪里”这三个终极问题的准确答案。