新闻中心

荀子古籍大语言模型:以AI技术探索古籍奥秘

用AI点亮“华夏之光”       阅读记载历史的古文,就像打开一扇通往过去的窗口,让我们得以窥见那个时代的风貌,每一个字、每一句话都承载着丰富的文化内涵和历史信息。技术步入快车道,改变了我们阅读和理解古籍的方式。面对浩如烟海的古籍,既往我们只能埋头伏案做繁复的整理工作;而如今,古籍大语言模型横空出世,为我们提供了阅读、整理和研究的诸多新可能。01Model Publishing模型发布      2023年12月2日,以南京农业大学王东波教授为首席专家的国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组联合中华书局古联公司发布了荀子古籍大语言模型,这是一款专门用于古籍信息处理的基座模型、对话模型与智能代理为主要目标的开源的、公益的古籍大语言模型。该模型获得专家一致好评,并受到《光明日报》、央广网、学习强国等重要媒体关注报道。02The origin of the name命名缘起荀子是我国先秦时期伟大的朴素唯物主义思想家、散文大家,在语言学理论的阐述上他也是一位开拓者,命名荀子是为了纪念这位中国历史上的语言学先驱,对于普通受众而言,想要走近繁体、竖版、未添加句逗的古文不是一件容易的事,而“荀子”的上线意味着在智媒时代和古籍对话成为可能。03Features功能特色爬罗剔抉 刮垢磨光大模型古籍处理能力评测      当前 “百模大战”如火如荼,国内各大企业和研究机构推出了超过200种通用和垂直领域的大语言模型,这在一定程度上推动了技术的进步和共享,但也给用户带来了严重的“信息过载”问题。一方面,当前评测通用大语言模型的指标任务形式大多局限在单项选择和开放问答上,难以全面地衡量其语言能力。另一方面,垂直领域的评测基准严重缺乏,在特定领域的应用效果也难以准确评估。这导致特定行业工作者很难有效地选取合适的模型进行开发和部署。妥善地评估大语言模型的古籍文本处理能力对古籍研究者选取高质量模型有着重要意义,而当前绝大多数中文大模型能力评测基准都未将古文处理能力纳入到评测体系之中。因此,荀子古籍大语言模型构建了包含13项自然语言处理任务的ACHeval评测基准,分为文本理解能力评估、文本生成能力评估和知识能力评估三个模块,包含文本分类、分词、命名实体识别、古现翻译等处理任务。通过检测其他大模型对古籍文本的处理能力,解决绝大多数预训练模型在中文大模型能力评测基准方面缺失的问题,为古籍研究者提供有效的模型选择和开发参考。博览坟素 广摭清英荀子大模型训练数据构造      不论是用于二次开发的基座模型还是提供服务的对话模型,高质量的训练数据始终是大语言模型的各项能力的源泉,数据采集需要考虑到多样性和覆盖性,即数据来源应该尽可能广泛,且涵盖不同的领域和场景,以便模型能够更好地适应各种语言环境和应用需求。此外,保持数据的准确性和一致性也十分重要,这需要使用多种人工智能算法过滤出符合条件的文本。      既往研究人员都考虑使用电子化古籍资源对模型进行继续预训练来增强预训练语言模型的处理能力,并取得了一系列优秀的成果。但团队通过大量实验以论证不同预训练数据的选择对大模型最终性能所产生的影响发现,现代汉语和古代汉语之间存在较大语法差异,单纯使用古籍文本增强模型会使得模型出现灾难性遗忘现象,损失现代汉语能力而倾向于生成古籍文本,但这不符合真实的人机对话场景与模型设计的初衷,不能直接将在中小型模型上奏效的方法迁移至大模型中。 荀子古籍大语言模型团队通过分析古籍本身和对话任务的特性,采集了约5GB的古籍语料与现代汉语文本、指令数据等其他类型的语料混合在一起,创建了包含40亿中文字符的混合数据集。四种类型的语料分别用于学习古籍文本字符分布特征、防止灾难性遗忘、增强对指令的响应能力以及将现代文习得的知识外推至古籍文本中。在此混合预训练语料的基础上,以Qwen-7B为基座训练“荀子”模型,使其能够有效地理解古籍文本。      为使模型遵循根据用户请求回答问题,还要设计富含多种任务的指令集进行模型微调。“荀子”系列模型在预训练过程中加入了部分古文和通用指令数据以提高模型自身的指令适应性,在指令微调阶段,重点考虑如何再回忆和激活知识,提升模型对指令的理解能力。同时,为了防止模型的现代汉语理解能力下滑,增强泛化能力,还从高质量指令微调数据集中筛选出符合条件的指令,按照一定比例混合成综合指令数据集,进而训练“荀子”系列对话模型,最终在多种常见的古籍处理场景之中取得优势。含英咀华 下笔有神荀子大模型训练关键技术     大语言模型的训练是一项复杂的系统工程,对于领域化模型来说,大量计算资源、多种优化策略以及高质量的数据集都是训练过程中所不可或缺的。荀子大模型的训练过程,就像是在构建一座巨型智能金字塔,具备多种关键技术的支持。      研究团队在南京农业大学所购置的高性能服务器算力支持下,充分探索领域预训练和指令微调两个大模型核心训练过程中的关键技术,并在6B-7B和13B-14B两个参数级别的大模型的领域化中取得成功。      在节省显存资源方面,团队使用deepspeed框架中的Zero2技术进行显存优化,将模型的状态参数和梯度分配到8张型号为A800的GPU上,使得全参数量训练模型成为可能,显著加快训练速度。     同时还使用半精度浮点数(FP16)替代全精度浮点数(FP32)加载模型,并对分词后的训练数据进行了拼接与组合,使每次组合后的训练样本总token数达到最大输入长度时再进行文本截断。从而优化了模型参数本身和训练数据的读取逻辑,降低整体计算开销。另外还使用梯度累加策略模拟大批次的训练,防止训练过程中的过拟合现象的发生。       综合多重训练技巧,利用已有的计算资源模拟出数百张GPU并行训练大模型的环境,在A800计算集群将全参数增量预训练70亿参数级别模型的训练吞吐量提升到约17500token/秒,仅2天时间即可完成40亿token数据的训练。经测试,用混合语料继续训练可以增强模型在生成式古文处理任务上的表现,且完全可以将古籍对话模型部署到普通的办公显卡中以提供古籍处理的服务。   04Model Elegance模型风采  荀子古籍大语言模型在文本翻译、实体识别、文本摘要、文本标注、标点和词法分析、诗歌生成等方面都有不俗的表现。1、文本翻译:提交古文文本,即可得到现代汉语翻译。2、实体识别:根据指令,识别文本中的信息并进行提取。3、阅读理解:提交古文文本,根据文本进行现代汉语含义表达,实现学生在做阅读理解时的秒回答。4、古籍文献标引:根据提示词和古文文本,用极少的语句概括原文内容。5、文本标点与词法分析:提交古文文本,得到自动标点和词性标注的结果。

2024/01/10