现代汉语历时语料库HCMC参照COHA抽样方法构建,由浙江大学邵斌教授主持,旨在真实反映现代汉语百年发展。HCMC为亿字级别,涵盖多个时段文本,属于按时间顺序选取语料的历时语料库。下文将介绍英汉语历时语料库研制现状与HCMC建设过程。
历时语料库的构建需满足有序时间覆盖、地域覆盖、社会语言覆盖和体裁覆盖四个标准。英语历时语料库建设已较为成熟,库容扩展至亿词级,时间跨度以百年为主,选材抽样均衡。欧洲学者在英语历时语料库研制上起步较早,美国学者也取得了丰硕成果,如ARCHER语料库和COHA。汉语历时语料库研制起步较晚,严格意义上的历时语料库还很少见,需要借鉴国外经验。近年来,我国学者创建了一些百万甚至亿字级别的汉语历时语料库,如北京大学CCL语料库和北京语言大学BCC语料库,但存在分期笼统、未考虑均衡抽样等问题。一些新的汉语历时语料库如"1920—2020百年汉语历时语料库"在抽样方面有所改进,但仍存在规模较小、未实现连续取样等问题。与英语历时语料库相比,汉语历时语料库在选材和抽样的平衡性和代表性方面有待提升。
HCMC是一个亿字级的现代汉语百年历时语料库,参考COHA取样方案,旨在平衡性和代表性上反映现代汉语百年发展。语料库收录1920—2019年的语料,每十年约1000万字,共约1亿字。最初计划收集四种语域语料,后因杂志语料杂糅和数量不足,舍弃该语域。语料比例为新闻50%,小说30%,非小说20%。语料来源包括《民国日报》《大公报》《申报》和《人民日报》等,小说语料参考多个文学奖项书目,非小说语料包括学术专著等。文本作者地域和社会文化背景多元化,不收录港澳台和国外华裔作者文本。每个十年段中各语域语料字数按比例分配,不足平均字数的文本全文收录。原始语料经清洗后标注元信息,使用Python程序和Hanlp2.1.0b52工具包进行分词和词性标注。HCMC特色包括大语料规模、时段和语域均衡取样、提供词性标注和元信息。可用于汉语词汇、句法、话语语用特征的变异与演变研究,也可与英语历时语料库进行汉英对比研究。
介绍了英汉语历时语料库现状,强调汉语历时语料库研制的重要性,指出国内汉语历时语料库研制尚处于探索阶段,需要借鉴国外经验,创建规模大、抽样合理、代表性强的汉语历时语料库,以促进我国历时语料库研究的发展。浙江大学外国语学院有语料库建设传统,已故肖忠华教授创建了兰卡斯特汉语语料库和浙江大学汉语译文语料库,HCMC的研制是对肖忠华教授工作的传承和延续,也是对其的缅怀与致敬。
* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。