买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工业大学
摘要:本发明公开了古诗文主观题自动评分方法,通过对语文古诗文阅读类主观题的分析,提出了结合学科情感分析模型与依存关系的相似度评分算法。以中文维基百科语料为基础,扩充了与评分相关的古诗文,共计81927条,通过Word2vec模型进行词向量训练,构建了古诗文基础语料库;基于学科评分特性建立了对应的古诗文过滤词表;针对情感分析模型对古诗文语句分析不准确的问题,结合同义词词林,建立了古诗文情感词库;构建了学科情感分析模型,将其与StanfordCoreNLP的依存句法分析相结合,实现了相似度评分算法,并将其应用于古诗文的阅卷评分。实验表明,该算法的平均评分准确率达到了89.42%。
主权项:1.古诗文主观题自动评分方法,其特征在于,包括如下步骤:步骤一,古诗文语料库的构建,将中文维基百科作为初始语料,收集整理了包含初中和高中课本内全部古诗词和文言文,生成古诗文语料,通过Jieba工具包对语料进行分词及词性标注,过滤标点和停用词并去重后存入古诗文基础语料;将古诗文基础语料通过文本向量化算法Word2vec中的CBOW模型来进行词向量的训练,构建古诗文语料库;步骤二,古诗文情感词库的建立针对指定词语,通过词向量模型找出与其相似度最高的十个词,将古诗文语料中带有情感倾向的词语进行收集和整理,并进行情感词库的构建;步骤三,构建学科情感分析模型,以SnowNlp的情感分析模型为基础,设计并构建学科情感分析模型,用于对古诗文阅读题答案的情感分析和评价;步骤四,基于关键词提取的相似度计算方法,根据学科特征,将学生答案和标准答案进行拆分,拆分后的词语不是得分点且会对评分造成影响的词语,将通过古诗文过滤词表进行过滤,并按照词性进行关键词的提取,后基于古诗文语料库将提取的关键词表示为词向量,并通过相加求和再平均得出句向量,利用Tanimoto系数得出两个句向量之间的相似度;步骤五,基于学科情感分析模型的相似度计算方法,通过对学生答案和标准答案的情感倾向分析,结合古诗文情感词库与学科情感分析模型分别计算两个文本对应的积极情感数值,实现相似度评分计算;步骤六,基于依存关系的相似度计算方法,依存句法分析任务是识别出句子所包含的句法成分以及这些成分之间的关系,采用StanfordCoreNLP的依存句法分析进行相似度的计算,先将句子的主谓和动宾关系找到,通过主语和宾语进行定位,确定谓语词的情感倾向,实现相似度计算;步骤七,结合学科情感分析与依存关系的相似度计算方法,将构建的古诗文语料库、古诗文情感词库和学科情感分析模型,用于主观题的相似度评分算法;通过关键词词向量相似度、情感分析模型的相似度以及依存句法分析的相似度的多维度相似度计算,从多个维度得到学生答案与标准答案文本之间的加权语义相似度,实现结合学科情感分析模型与依存关系的相似度评分;步骤二中所述的古诗文情感词库的建立步骤如下:a、预处理后的古诗文语料按照词性进行分类,词性为动词的词语归为一类并写入文件,将文件中古诗文原文中的词语及重复的词语删除,剩下的词语存入情感词库中,每个词占一行;b、基于学科情感分析模型,将情感词库中所有词语进行情感倾向分析,数值大于等于0.6的认定该词为积极词语,相反为消极词语,进行重新定义和排序;c、根据层次结构,将词林中每一行第八位为“=”的所有词语存入同义词列表中,并在列表中查找与词库中相同的词,将相同词语的全部同义词存入情感词库中相对应词语的后面,词语之间以空格分开;d、将词林中每一行第八位为“#”的所有词语存入反义词列表中,并在列表中查找与词库中相同的词,对情感词库进行检验和补充;“#”代表不等,属于相关词语;e、对于情感词库中有歧义的词语,进行人工校验,并在实验中不断补充和调整,构成一个完整的情感词库。
全文数据:
权利要求:
百度查询: 北京工业大学 古诗文主观题自动评分方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。