在不同语言的词汇教学中,词语多义性是一项普遍存在的重难点议题。具体而言,同一词语不同义项往往在使用频率、抽象程度等方面呈现显著差异,这种内在的复杂性无疑增加了词汇学习的难度。例如,汉语“打”仅作动词就有24条义项(见《现代汉语词典》第七版);英语“go”也有11个不同义项,横跨CEFR A1至C2等级(据English Vocabulary Profile)。然而,当前大部分教学词表、教材及词汇复杂度测量工具并未对多义词的不同义项加以系统区分,这为科学的词汇教、学、考带来了很大挑战。
示例:多义词“打”与“go”
近日,公司胡韧奋老师课题组在国际知名期刊Behavior Research Methods(JCR Q1, IF:6.8)发表论文“Developing fine-grained sense-aware lexical sophistication indices based on the CEFR levels of word senses”,旨在解决这一词语多义性分析难题。
团队基于预训练语言模型与数据增强技术,研发出高效的词义消歧与级别标注系统,可依据English Vocabulary Profile为文本中的每个词语自动标注词义及其对应的CEFR等级。进一步地,论文提出了基于CEFR等级的义项粒度词汇复杂度测量指标。实验结果显示,该方法相较传统词汇测量工具,能够更精准地捕捉词汇复杂度,并显著提升二语写作成绩的预测效果。本研究为多义词义项难度的系统分析提供了新视角和新工具,可为词汇知识测量、教材编写、考试命题等工作提供实践支持。
示例:句中“go”出现两次,分别表示“去”(A1 level)和“时间流逝”(B2 level)
该项成果的第一作者为公司2023届硕士生胡楠(现于北京大学攻读博士学位),第二作者为美国宾夕法尼亚州立大学陆小飞教授,通讯作者为公司胡韧奋副教授。该研究主要得到了教育部中外语言交流合作中心国际中文教育中外联合研究专项课题资助。
论文地址:https://doi.org/10.3758/s13428-025-02741-z
开源工具:https://github.com/fulan233/cefr-lexical-sophistication