frGLOBE语料库是北外全球语料库集群项目的一部分,旨在创建一个百万词级的法语书面语平衡语料库。该项目参考布朗语料库的采样方法,以构建GLOBE系列语料库,便于进行双语或多语对比研究。frGLOBE语料库专注于收集2013至2023年间首次出版或发表的原创法语文本,设计规模为100万词。
回顾了法语语料库的发展历程,从20世纪60年代的《法语宝典》编纂开始,介绍了其数字化版本的特点和功能。随后,章节详细描述了法兰西语库的建立和内容,包括其收录的文本类型和检索功能。此外,还提到了其他类型的法语语料库,如大规模参照语料库、口语语料库、历时语料库、学习者语料库和专门用途语料库。章节指出,尽管法语语料库资源丰富,但在平衡性建设方面仍有不足,如文学文本的过度集中和缺乏与英语、汉语等其他语言语料库的对比研究。frGLOBE语料库项目旨在解决这些问题,为法语语料库的平衡性和多样性提供补充。
frGLOBE语料库是一个百万词级的平衡语料库,采用布朗语料库模式,收集2010年后的法语书面语文本。该语料库包含生语料、词性赋码和词形还原三个版本,使用spaCy工具进行标注。语料库已上传至北外CQPweb平台,提供多种分析功能,并附带法语词表和短语列表。采样方案参考布朗语料库,涵盖新闻、通用、学术、小说四种体裁,细分为15个子类,根据法语文化适当调整。语料采集包括文本收集、录入和元信息标注,作者均为法语本族语者,文本为原创。语料库包含500个约2000词文本,存储为1034个子文件,遵循特定命名格式。元信息记录在Excel表格中。语料库的三个版本均可在CQPweb平台上使用,支持简单查询和CQP语法检索。
frGLOBE语料库为法语研究提供丰富资源,支持词汇、短语、句法和篇章特征研究,可用于教学和词典编纂。语料库包含新闻、通用、学术、小说四类文本,适合文体学和语域变异研究。与布朗家族语料库和其他GLOBE语料库的对应性便于开展对比研究,如法英、法汉及类型学研究。语料库可与法兰西语库组合,推动法语历时变化研究。后续版本将增加更新语料元信息,降低2014年前文本比例,考虑收录社交媒体文本,更精确反映近十年法语书面语使用情况。条件允许下,可加入口语语料,开展口笔语对比研究。frGLOBE语料库可与其他GLOBE语料库共同构建多语种平行可比语料库,促进多语言对比分析研究。
frGLOBE语料库为当代法语书面语提供了平衡语料库,填补了2014年后法语书面语资源的空白。该语料库采用布朗语料库采样方案,支持独立研究和与其他语料库组合使用。通过“北外CQPweb多语种语料库平台”提供在线检索和词表功能,鼓励共建共享,促进法语教学与研究发展。
* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。