BITS架构分析

　　晚上读了LDC的语料库自动采集系统（BITS）的论文，感觉其可操作性更大，可以考虑结合Strand的框架设计一个语料库收集工具的新的架构。关于BITS的架构：
　第一部分：搜集资源
　　1.搜寻候选urls，它讲解的不详，可以考虑strand的方法，并且strand已提供了部分双语候选urls数据库，前期可以考虑直接利用这些数据库；
　　2.识别网络语言种类：它使用N-Gram方法训练识别器，不错，可以借鉴；
　　3.网页下载：和strand一样，都是利用wget，而wac和bootcat都有相似的方法，可以考虑直接利用；
　　4.html网页清洗和语言识别：BITS将html转换为纯text格式，linux下有html2text的软件，不过要根据需求进行清洗加工；
　第二部分：寻找翻译对（重点加难点）
　　1.语块识别：利用网页的路径名识别，strand也是利用了这个方法作为初步识别；不过BITS最重要的方法是基于内容的翻译对识别，其实就是利用双语词典，进行相似度计算，算法很简单，真正需要的是训练时间。这个方法的操作性很强，并且从篇章中抽句对齐的方法也可以利用词典，突然感觉基于词典的方法不错！这种方法可以做到初步的篇章，段落，甚至句子对齐。在作者的另一篇文章构建LDC文章中，他又使用了一种Champollion 的句对齐方法，可以参考。
　　2.关于句对齐，经典的是Gale and Church （1991）的基于长度的方法，但是从报告中来看，这种方法对近似语言比较好，对于远距离语言效果不太好，这样利用词典的方法就可以作为一个补充。
　　3.同时发现了一个对齐工具箱：MTTK: An Alignment Toolkit for Statistical Machine Translation。它从文本对齐开始训练，可以达到语块对齐，句对齐，短语对齐及词对齐的水平。还没试用，但是记住：优秀的程序员写程序，伟大的程序员利用现有的资源。

注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：
https://www.52nlp.cn/bits-structure-analysis/

BITS架构分析

作者52nlp

作者 52nlp

相关文章

❤️Emotional First Aid Dataset, 心理咨询问答语料库

推荐一份中文数据，再试试汉字、词语、成语、歇后语在线检索

风云三尺剑，花鸟一床书---对联数据集和自动对联机器人

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

发表回复

You missed