前几天,看到了东北大学小牛翻译团队开源的语料项目:文言文(古文)-现代文平行语料https://github.com/NiuTrans/Classical-Modern) ,这个项目整理了非常全的文言文(古文)- 现代文(白话文)对齐数据,基本涵盖了大部分经典古籍著作,并且对原始爬取的篇章级对齐数据进行了断句及人工校对,形成了共计约96万句对的文言文-白话文对齐(平行)语料。

这份语料数据很珍贵,看到的第一眼想到就是用这份文言文现代文对齐语料训练一个文言文白话文转换器:文言文转白话文,文言文转现代文,白话文转文言文,现代文转文言文,古文转白话文,白话文转古文,古文转现代文,现代文转古文。

刚好春节假期有点闲,于是训练了两个神经网络机器翻译模型:文言文(古文)到白话文(现代文),白话文(现代文)到文言文(古文),现在可以在AINLP公众号后台直接对话测试了,至于效果,基于语料和模型的水平,仅供一乐,关注AINLP公众号,对话输入"文言文转白话文:待转换内容"或者"文转白:待转换内容"测试文言文转白话文,输入"白话文转文言文:待转换内容"或者"白转文:待转换内容"测试白话文转文言文:

以下是我的一些测试结果,感兴趣的朋友可以关注AINLP公众号自行评测:

甚至可以先用AINLP写一段文言文,然后再翻译成白话文:

以下是AINLP目前支持的自动生成模块,之后将加入更多的领域生成测试模块,欢迎关注测试:

鼠年春节,用 GPT-2 自动写对联和对对联
用 GPT-2 自动写诗,从五言绝句开始
自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了
仅供娱乐,藏尾诗生成器来了

中文歌词自动生成器:来试试自动写歌

文言文自动生成器:来试试自动写古文

现代文自动生成器:来试试用GPT2自动写中文

自动作文生成器:来试试用预训练模型自动写中文作文

以下是关于这个语料项目的具体介绍,感兴趣的朋友可以直接下载测试:

文言文(古文)-现代文平行语料

非常全的文言文(古文)-现代文平行语料,基本涵盖了大部分经典古籍著作。

原始爬取的数据是篇章级对齐,经过脚本分句(按照句号分号感叹号问号划分)以及人工校对,形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外,目录source下是文言文单语数据,target下是现代文单语数据,这两个目录下的文件内容按行对齐。

以下为数据统计信息。其中,短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并。

书名句数
短篇章和资治通鉴348727
元史21182
北史25823
北书10947
南史13838
南齐书13137
史记17701
后汉书17753
周书14930
太平广记59358
宋书23794
宋史77853
徐霞客游记22750
新五代史10147
新唐书12359
旧五代史11377
旧唐书29185
明史85179
晋书21133
梁书14318
水经注全11630
汉书37622
辽史9278
金史13758
陈书7096
隋书8204
魏书28178
总计967257

《短篇章和资治通鉴》中各书籍统计如下(此部分数据量不完全准确):

书名句数
资治通鉴7.95w
左传1.09w
大学章句集注86
反经4211
公孙龙子73
管子6266
鬼谷子385
韩非子4325
淮南子2669
黄帝内经6162
皇帝四经243
将苑100
金刚经193
孔子家语138
老子398
了凡四训31
礼记4917
列子1735
六韬693
六祖坛经949
论语988
吕氏春秋2473
孟子1654
梦溪笔谈1280
墨子2921
千字文82
清史稿1604
三字经234
山海经919
伤寒论712
商君书916
尚书1048
世说新语3044
司马法132
搜神记1963
搜神后记540
素书61
孙膑兵法230
孙子兵法338
天工开物807
尉缭子226
文昌孝经194
文心雕龙1388
吴子136
孝经102
笑林广记1496
荀子3131
颜氏家训510
仪礼2495
易传711
逸周书1505
战国策3318
贞观政要1291
中庸206
周礼2026
周易460
庄子1698
百战奇略800
论衡1.19w
智囊2165
罗织经188
朱子家训31
抱朴子217
地藏经547
国语3841
容斋随笔2921
幼学琼林1372
三略268
围炉夜话387
冰鉴120

如果您使用该语料库,请注明出处:https://github.com/NiuTrans/Classical-Modern

感谢为该语料库做出贡献的成员:丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。

作者 52nlp

发表评论

您的电子邮箱地址不会被公开。