介绍了汉语词汇丰富性的自动分析研究项目背景,包括教育部中外语言交流合作中心国际中文教育中外联合研究专项课题和重大课题的支持,以及杨丽姣老师和徐会丹、邱丹阳同学在数据资源方面的贡献。同时,对匿名审稿专家和编辑老师的宝贵意见表示感谢。
讨论了词汇知识在语言教学和习得研究中的重要性,区分了接受性知识和产出性知识,并强调了词汇丰富性在评估产出性词汇知识水平中的作用。英语学界对词汇丰富性进行了广泛研究,而汉语学界则相对较少,且缺乏系统、完整的测量体系。本研究旨在构建适用于汉语文本的词汇丰富性测量维度、指标及工具,包括词汇知识库的构建、145项测量指标的设计,以及利用自然语言处理技术实现自动抽取和分析。通过作文评分和文本分级任务验证和筛选指标,形成了60余项测量指标的系统体系,并开发了中文词汇特征分析器(CLRA)工具,以支持汉语教学和研究。
本章节介绍了汉语词汇丰富性指标的设计基础,包括构建大型词汇知识库和多类型特征的综合考虑。通过《国际中文教育中文水平等级标准》调整词表,处理同形或兼类词,实现词语等级的准确标定。从汉语国际教育动态语料库和HSK测试样题中采集高频词,结合语素形式和意义进行人工标注和等级赋予。知识库还新增了义务教育等级信息。在词语常用度特征方面,通过词频和词语分布范围衡量,收录国家语委现代汉语语料库的通用词频信息,并针对教学需求进行词频统计。词义认知类特征包括词语多义性、词义上下位关系、词义抽象性、词义透明度和词语反应时长等,通过不同方法采集相应属性,如参考《同义词词林》统计义项数,开源上下位词语图谱数据集抽取词义上下位关系,Xu和Yang构建的词表收录词义抽象度属性,邱丹阳构建的数据集采集语义透明度信息,Zhang等构建的资源库获取词语反应时长指标。
本章节介绍了汉语词汇丰富性的自动分析研究,提出了一个综合词汇复杂度、多样性、密度和长度四个维度的测量框架。在词汇复杂度方面,设计了78个词语等级指标、30个义务教育词语等级指标、平均词频和词语分布范围指标,以及基于词义认知特征的指标。词汇多样性方面,实现了10种指标提取,包括TTR、Root TTR等,以筛选出受文本长度影响小的指标。词汇密度和长度方面,计算了不同词性词语和不同词长词语的占比。共设计了145项指标,利用自然语言处理技术和知识库实现了自动分析,生成包含所有指标的Excel表格文件。
介绍了汉语词汇丰富性自动分析研究中指标体系的构建过程。研究通过检验和筛选145项指标,最终确定了60余项覆盖四个核心维度的词汇丰富性指标。首先,构建了包含汉语二语作文、教材和母语教材的测试语料库,基于文本长度影响小、预测力强和独立性高的原则,筛选出76项稳定指标。进一步分析显示,75项指标与作文分数或教材等级显著相关,剔除共线性指标后,保留了63项指标。这些指标分为词汇复杂度、多样性、密度和长度四个维度,其中51项适用于二语作文质量评估,53项适用于二语教材文本难度分级。最后,通过逐步线性回归分析验证了指标体系的有效性,模型的R2值均达到大效应量,表明构建的指标体系能有效预测作文分数和教材等级。
本章节介绍了基于Python和Tkinter开发的汉语词汇丰富性自动分析工具CLRA6,具备文本标注、词表生成和指标分析三大功能,通过图形用户界面操作。针对不同研究对象,提出了词汇丰富性指标体系的应用建议,包括二语学习者作文、二语教材和母语教材文本的指标选择。研究发现,随着文本长度增加,词汇丰富性指标趋于稳定,建议优先选取300字以上的文本进行分析。
本研究从词汇复杂度、多样性、密度和长度四个维度设计了汉语词汇丰富性量化指标,构建了词汇知识库并实现自动抽取,筛选出实用性强的指标体系,并在实际应用中验证了其有效性。研发了CLRA中文词汇特征分析器,提出了指标选用建议。未来将优化指标体系和分析器软件,探讨母语者词汇知识衡量和口语书面语差异,结合大型语言模型开展文本生成和简化技术研究,服务国际中文教育数字化资源研发。
* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。