语言智能翻译 | 更新时间:2024-11-06
低资源语言机器翻译:现状与未来
李佐文 1 ,  孙上 2 * ,  闫瑾 2    作者信息&出版信息
语言与智能   ·   2024年11月6日   ·   2024年 1卷 第1期  
52 0(CNKI)
PDF
该文暂无导航

AI 摘要

1 引言

机器翻译是实现全球语言智能转换的关键领域,但研究主要集中在高资源语言上,忽略了数千种低资源语言。深度学习推动了神经机器翻译(NMT)的发展,但其需要大量训练数据,对低资源语言构成挑战。全球语言多样性对交际效果有重要影响,但目前只有25种语言能进行自然语言处理研究。尽管市场上有多种机器翻译系统,但真正能实现高质量翻译的语言有限,表明实现全球语言翻译目标还有很大差距。

2 低资源语言机器翻译的挑战

讨论了低资源语言机器翻译面临的挑战,包括使用人数少、缺乏数据资源和研究关注不足。提出了数据增强、迁移学习和枢轴语言等神经机器翻译方法,但仍然存在数据稀缺、模型评估、言语社区构建和语言文化保护等困境。缺乏高质量标记数据、多语言模型、评估困难、资源限制和罕见词翻译准确性是主要问题,需要进一步研究和开发新的评估方法。

3 国内外低资源语言机器翻译现状

低资源语言机器翻译领域面临的挑战和研究进展包括多种技术方案。数据增强技术通过加工现有数据或生成新伪数据来丰富训练数据,包括逆向翻译、双语挖掘和知识融合等方法。逆向翻译利用少量平行语料训练模型生成伪平行语料,而迭代逆向翻译和双向翻译训练则通过迭代过程优化翻译质量。双语挖掘从可比语料库中挖掘平行句对,而知识融合通过融合外部知识如双语词典减轻对平行语料的依赖。多语言翻译模型利用高资源语言数据帮助构建低资源语言翻译模型,包括枢轴语言方法和迁移学习方法。无监督机器翻译不依赖平行语料,通过单语数据训练翻译模型,尽管在语言对相似性高时表现良好,但在远距离语言对中效果有限。大语言模型如Claude模型在低资源翻译任务中展现潜力,知识蒸馏技术通过从高资源模型传递知识提高低资源模型翻译质量。这些方法通过BLEU值等评估,在低资源语言机器翻译方面取得显著进展,但仍面临提升生成语料质量的挑战。

4 融入语言知识的低资源语言机器翻译

北京外国语大学人工智能与人类语言重点实验室提出了结合迁移学习、枢轴语言和知识融入的方法,以实现低资源语言机器翻译。实验室构建了多语互译系统LingTrans101,覆盖101种语言,包括29种低资源语言。在数据收集与处理方面,实验室与小语种教师和学生合作,收集、编辑平行语料并进行预处理,使用NOTEPAD++和EXCEL软件对语料进行编辑和查重,用python程序预处理语料,包括分词、标注语种代码等。在模型训练方面,LingTrans101采用"预训练+微调"的模式,使用M2M-100多语言机器翻译模型作为父模型,进行迁移学习,得到包含29种低资源语言的子模型。M2M-100模型包含4亿1800万参数,训练数据来自CommonCrawl数据库,采用迭代逆向翻译方法提高性能。LingTrans101的发展方向是完善模型以提高翻译效率,扩展低资源语言语料库以提升翻译质量。

5 低资源语言机器翻译的未来发展

低资源语言机器翻译是实现全球语言无障碍沟通的关键,面临语料库不足的挑战。未来研究将聚焦于突破语料限制,通过跨语言迁移学习、多语言联合建模等技术弥补数据不足,并融入语言学知识提升模型泛化能力。同时,增强翻译系统的自适应能力,依赖动态微调和自适应机制,捕捉语言和语境变化,提升系统在不同领域、方言中的翻译能力。,此外复杂文档的翻译也是重要研究方向,需要系统在文档级别上进行理解和翻译,保持跨句一致性,并处理段落结构、上下文衔接、特定领域术语等细节。低资源语言机器翻译的未来发展将依赖于技术突破和多学科融合,为全球更多语言使用者提供准确、自然的翻译服务。

* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。

展开

当前期刊

当前期刊
    目录