《文言文(古文)- 现代文平行语料》包含327本书籍。双语数据共包含97本书籍,其中包含句子级别对齐句子共计 972467 个句对。原始爬取的数据是篇章级对齐,经过脚本分句以及人工校对,形成共计约 96 万句对,source 下为文言文,target 下为现代文,文件内容按行对齐。本项目遵守遵守MIT开源协议。

从文学角度出发,本项目将所有古文原文整理至文件夹 古文原文 中,并对每本古籍,按篇章/章节进行划分与展示,正文部分存于各章节下的 text.txt 中,例如 论语/学而篇/text.txt ,孟子/梁惠王章句上/第一节/text.txt 。对于平行数据,本项目整理至文件夹 双语数据 中,这些双语数据是以句子级别为单位进行划分,本项目提供了原文、译文、双语三种数据格式,例如:论语/学而篇/source.txt 、 论语/学而篇/target.txt 、 论语/学而篇/bitext.txt 。注:所有数据均按行保留了古文原文的相对顺序,即数据非打乱。

源代码:https://github.com/NiuTrans/Classical-Modern