中国古籍文库「旧书与珍本」

互联网 2023-08-03 13:47:54

今天给大家普及一下中国古籍文库「旧书与珍本」相关知识,最近很多在问中国古籍文库「旧书与珍本」,希望能帮助到您。

文丨AI财经社 郑亚红

编丨赵艳秋

几年前,爱读书的高晓松在美国的伯克利大学偶然间发现了一批珍藏的中文古籍善本。那时,他想到如果国内的学者们要读到这批古籍,难道只能坐上飞机越过重阳坐进伯克利的读书馆才能看到吗?让更多的人点点手指就能看到这些跨越时间、空间的珍贵书籍,成为接下来这段故事的起点。

5月18日,中国科技馆中举行了一场特别的发布会,会议的主角正是伯克利大学东亚图书馆的这批以数字化方式回归中国的古籍。这个项目名为“汉典重光”,由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展。

据了解,借助阿里达摩院的技术,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过汉典重光平台翻阅、检索古籍。据悉,达摩院AI对20万页古籍的识别准确率达到97.5%。

大量中国古籍流存海外

中国有多少本古籍流落海外?没有一个确切的答案。由于战争、邦交等历史原因,有大量中文古籍流存海外,散落于日本、美国、欧洲等地,保存在当地的图书馆、博物馆、寺庙和私家藏书阁里。其中不乏具有研究价值、历史意义的孤本、善本,但除了极少数专业人士,普通人难得一见。

据不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图(地图)等。

比如加州大学伯克利分校的中文藏书量就很可观。此次宣布的首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本,如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等。

在过去,这些古籍想要“流传”起来,其中存在着种种现实挑战。古籍录入是一项非常繁重、对人力要求高、效率又很低的工作。一个“人工录入”典型的例子是,当年乾隆皇帝主持下,360多位高官、学者,用了3800多人、耗时15年才完成《四库全书》的编撰。

时代发展之下,对古籍的流传、录入也发展出了新的数字化技术。

古籍数字化道阻且长

2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院王果副院长与该院教授、中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。

但现实是这也并非一蹴而就的,其间过程面临着一道道坎。用王果教授的话说,就是:在技术研发过程中,比之前预想到的难度还要大。为此,双方在杭州、成都,开了不下10次的技术研讨会。

古籍文字识别与现代文献的文字识别可以说完全不是一回事。现代文献中的文字识别常常用OCR(光学字符识别),这一种常用的计算机视觉技术,经常被用来识别文字,比如证件、票据、电商平台的商品图片等。陈力表示,与现代文献的文字识别不同,古籍版式复杂、字体变化大,外加流传过程中出现的各类损坏,识别起来很困难。

伯克利提供古籍的扫描图片和编目数据,达摩院将其全部文字化。古汉语常用字仅有几千,但中国古籍全部字符约有几十万,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习。面对海量无标注的数据,如何让AI快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。

达摩院技术团队与四川大学专家联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成对20万页古籍的整体识别。

对此,陈力认为97.5%“仍然是不合格的”。他表示国家印刷品的出错率是万分之二,古籍文字识别还具有很大的差距。在一些较复杂需要语境分析的文字还做不到,比如“上下”两字在有的古籍中有完全不同的写法,“上”写作“二”,“下”写作下横长、上横短的倒过来的“二”,“上下”两字同时出现时,看起来就会变成四条“一”。这个时候乍一看就有很多种解读,就要专家通过语境判断这是“上下”二字。

此外,他也称,由于缺乏大量文本,古籍数字化仍然处在最开始的阶段,只是对单个字符的识别,未来在文本更多的情况下,希望能够看到机器具备构建语言模型、做一些信息挖掘、信息统计的能力。

阿里巴巴达摩院院长张建锋表示,守护中华传世典籍,是科技工作者和文化工作者共同的使命。阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,同时,阿里仍将在古籍数字化工作上持续投入人力物力。

本文由《财经天下》周刊旗下账号AI财经社原创出品,未经许可,任何渠道、平台请勿转载。违者必究。