新闻中心 / 新闻阅读

“古联讲堂”开讲 中华书局古联公司与高校合作开展线上交流会活动

发布时间:2020-04-22 12:53:53 来源: 作者:古联公司

自2020年4月10日起,中华书局古联公司在腾讯课堂平台的“古联讲堂”正式开讲,古联公司总经理助理、文献编纂部主任朱翠萍以《数字化背景下的古籍文献整理》为题,分别与清华大学、中国人民大学等高校师生就古籍整理过程中的若干问题展开交流。直播活动吸引了近千位业内学者、在校师生参与互动,引起热烈反响。

中华书局古联公司作为中华书局的全资子公司,所进行的数字化工作围绕着古籍整理进行布局和构建。结合古籍整理工作过程中的选择书目、鉴定版本、校勘文字、标点断句等工作,在本次直播中,朱老师分别从“古籍整理数字化过程中的字形整理”、“古籍文献自动标点”、“古籍文献自动校勘”、“古籍整理在线众包工作”及“古籍数字化成果在线发布”五个方面阐述了数字化背景下古籍整理工作的挑战与机遇,分享了古联公司在古籍数字化过程中进行的探索及取得的成果。

在字形整理问题上,古联公司进行了大量的字形整理与考证工作,考释了所处理文献中的未编码字,确认需整理的字形是一个新的生僻字还是某字的异体字,如果是新字就重新造字,若是异体字则先将文献类型分类,之后再确认处理原则。目前,古联公司已拥有了一个13万字的超大型字库——中华宋体字库。

而在自动标点技术方面,古联公司与北京师范大学合作,利用bert神经网络模型,在正式出版的12.5亿古籍语料基础上进行训练,进而获得一个准确率更高的古籍文献自动标点模型,大大提高了工作效率。

关于古籍文献自动校勘,朱老师阐述了技术的实施策略。即“引文特征明显的,将特征提取出来,让系统自动识别出引文,再去跟引文语料库进行比对,看文字是否一致;引文特征不明显的,通过添加引文策略的方式,去标识引文,再让后台系统自动识别引文,然后与引文库中资源进行匹配。”通过此项技术,编辑仅用两周时间就完成了合计1500万字的《宋代文学述评全编》及《宋代文话全编》的引文核对工作,若由人工完成,按照日均4万字速度通读,工作者不停地工作,也至少需要300天才能完成。

随后,朱老师还介绍了“古籍整理工作平台”及与本平台相关的小程序“i编纂”。由于该平台的应用,突破了时间和地域限制,打破了行业樊篱,将社会上的古籍爱好者组织起来,大大推进了工作速度。古联公司现有极其优质的古籍数字化成果,正是借助资源、人才、技术合力而诞生的。

最后,朱老师表示,古籍所记,均为人类智慧的结晶,但由于种种原因, 存世古籍只占我国全部古籍的一小部分。同时,受限于学术背景及技术能力,古籍保护、修复人才十分匮乏,早期的古籍整理工作开展得十分缓慢。随着技术不断发展,现在已经可以利用成熟的数字化手段对古籍文献进行加工处理,使古籍得以保存、传播和使用,助力学术研究,弘扬传统文化。今后古联公司将进一步拓展类似研发工作,与更多的专业力量强强联合,共同推动古籍文献处理技术的发展。

直播过程中,参会人员提出了很多关于古籍整理工作方面的专业性问题,朱老师一一作答,并就古籍数字化若干问题与参会人员进行了交流,直播气氛十分热烈。以此为契机,“古联讲堂”将陆续推出更多专题讲座,加强与学界全方位的交流与合作。