买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华侨大学
摘要:本发明公开了一种基于知识约束的MCT完形填空智能出题方法及系统,方法包括:基于HSK中文水平等级和医学词典等多维复杂知识约束对医疗文本进行篇章语义解析,以筛选出符合要求的医疗文本作为出题语料;基于MCT等级的知识约束对出题语料进行考点词挖空;基于医学知识图谱、HSK中文水平等级、MCT等级等多维复杂知识约束完成干扰项生成;将题干挖空文本和题目列表组成完形填空题目进行输出。本发明针对参加MCT考试的医学专业留学生,内容聚焦在医院日常交际场景的理解、病情的沟通与交流、疾病的具体描述,通过海量的医学词典、医疗知识图谱为MCT题库智能生成提供医疗知识数据支撑,实现医学汉语资源的科学利用。
主权项:1.一种基于知识约束的MCT完形填空智能出题方法,包括以下步骤:S1:医疗文本出题语料筛选步骤S11:对医疗题干文本进行分词,分词结果存储于数组listOfStr中;S12:将“中医疾病与病征编码”词典中词汇存储于数组txt中,如果listOfStr中的词汇包含于词典中,则舍弃对应的医疗题干文本;S13:若医疗题干文本被保留,则依次遍历listOfStr中的每个词语,判断listOfStr中的每个词语是否都存在于“科室-疾病”医学词典department中;若存在,则对字典time中的相同键次数+1;S14:遍历结束后,找出字典time中键次数最大的值,即出现次数最多的科室,将该科室名判断为题干文本的类别;若类别符合MCT出题要求,则该医疗题干文本保留;S15:若保留医疗题干文本,将HSK中文水平等级的等级词汇“HSK”存储于数组strDict1中;S16:依次遍历listOfStr中的每个词语,在数组strDict1中寻找词语对应的HSK中文水平等级;设当前出题对应的MCT等级值为c,其中c包括一级、二级和三级,设置MCT等级一级对应HSK1-4级、MCT等级二级对应HSK5级、MCT等级三级对应HSK6-9级;若词语对应的HSK等级超过其对应的MCT等级,则舍弃对应的医疗题干文本;S17:若医疗题干文本被保留,则将该医疗题干文本确定为出题语料文本TextQuestion;S2:考点词挖空步骤S21:将MCT考试大纲中的等级词库小于当前出题MCT等级值c的词汇存储于数组strDict2中;所述等级词库包括词汇及其对应的MCT等级;S22:判断listOfStr中的词语否存在于strDict2中,如果存在,则将该词语存储于候选挖空词组listLine中;S23:如果候选挖空词组中词汇数量多于设定的MCT单题出题词语数量限定值n,则随机剔除词汇,保证剩余挖空词汇不多于n个,由剩余挖空词汇组成的词组为最终挖空词组;S24:遍历最终挖空词组,对每个词在出题语料文本TextQuestion中找到该词第一处出现的位置,将该词替换为挖空字符“____”;S23:基于完成挖空后的出题语料文本TextQuestion形成题干挖空文本;S3:干扰项生成步骤S31:创建题目选项数组key,遍历最终挖空词组中的词汇,每个词语依次存入数组key的第1个单元key[0];S32:若key[0]存在于医学知识图谱中,则在该知识图谱中随机选择另外3个词语构成干扰项,并将这3个字符串存入数组key的第2至第4单元中,并将题目标注为“医学题”,将题目标注的值存入key的第5个单元中;S33:若key[0]不存在于医学知识图谱中,则进一步判断key[0]是否存在于HSK中文水平等级词汇数组strDict1中,若存在,则在数组strDict1中随机选择另外3个词语构成干扰项,并将这3个字符串存入数组key的第2至第4单元中,将题目标注为“语法题”,将题目标注的值存入key的第5个单元中;S34:若key[0]不存在于HSK中文水平等级词汇中,则在MCT考试大纲等级词库strDict3中随机选择另外3个词语构成干扰项,并将这3个字符串存入数组key的第2至第4单元中,将题目标注为“其它题”,将题目标注的值存入key的第5个单元中;S4:完形填空题目输出步骤S41:将获得与最终挖空词组的数量m一致的m个题目选项数组key作为题目列表;其中,m≤n;S42:将题干挖空文本和题目列表组成完形填空题目进行输出。
全文数据:
权利要求:
百度查询: 华侨大学 一种基于知识约束的MCT完形填空智能出题方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。