买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京华图宏阳网络科技有限公司
摘要:本发明涉及自动评分技术领域,具体涉及一种中文议论文智能批改方法及系统,本发明获取用户作文图片后,调用OCR接口进行文本识别,并对识别的文本进行预处理;依次提取作文的字数特征、段落特征及抄袭率,并作为浅层特征输入;识别作文的文采运用,同时用语言模型统计作文错字次数,作为中层特征输入;依次进行标题划档、结构划档、论点提取和划档、论据提取和划档,作为深层特征输入;计算浅层、中层和深层特征得分并输入两层的全连接网络,最终输出总分模型的评分。本发明自动提取文章论点,并对论点进行评级,自动提取论点对应的论据,并对论据的论证作用进行评级。还可以对文章的文采、语句通顺度、标题、结构等因素进行自动评估。
主权项:1.一种中文议论文智能批改方法,其特征在于,所述方法包括以下步骤:S1指定标准答案,总结文章主题,提炼中心论点及关键词,并准备作文材料;S2获取用户作文图片,调用OCR接口进行文本识别,并对识别的文本进行预处理;S3依次提取作文的字数特征、段落特征及抄袭率,并作为浅层特征输入;S4识别作文的文采运用,同时用语言模型统计作文错字次数,作为中层特征输入;S5依次进行标题划档、结构划档、论点提取和划档、论据提取和划档,作为深层特征输入;S6计算浅层、中层和深层特征得分并输入两层的全连接网络,最终输出总分模型的评分;所述论点提取和划档包括论点提取部分和论点划档部分;所述论点提取部分的子模块包括基于规则的模型、深度学习模型、规则和DL模型的结合;所述基于规则的模型提取标准答案中的论点关键词和主题关键词,对文章的每个句子进行分词和词性标注,然后对文章中的每个句子进行打分,句子得分为每个词得分的平均值,每个词的得分等于词性得分乘以句子在文章中的位置得分,算出句子的得分后,对于不包含任何一个关键词的句子的得分乘上0.35作为惩罚,最后,输出每个句子的得分;所述深度学习模型采用2层、单向的LSTM对单个句子进行编码,再用单层、双向的LSTM对文章进行编码,模型的流程如下:T1输入标准答案和文章的已分词句子列表,假设文章有n个句子;T2根据给定的词表,将n个分好词的句子转换成词表的下标;T3提取标准答案中的主题句,并且转成下标形式;T4将T2和T3两步的结果共n+1个句子输入模型,用2层、单向的LSTM进行编码,取最后一步输出的向量作为每个句子的编码;T5将T4得到的文章里的n个句子的编码输入一个单层、双向的LSTM,取n个时间步的n个输出的向量,此时这n个向量是对句子的包含上下文关系的编码;T6对于T5中得到的n个向量,都拼接上T3得到的句子的编码,输入一个全连接层作二分类预测,预测其是否为论点;T7输出句子是论点的概率,用全连接层最后输出的softmax概率表示;所述模型和规则的结合,首先分别把这两类得分标准化,得到均值为0,方差为1的分数,再把两类得分加起来作为总得分,按照总得分从高到低进行排序,不考虑长度低于7个字的句子,将其从结果中排除;其中,排除过短的句子后如果没有符合要求的句子了,就预测整篇文章没有论点;如果整篇文章只有不到3个句子或者当前只剩不到3个句子,就把得分最高的那个句子预测为论点,并且只预测一个;依次考虑得分最高的3个句子,如果遇到一个句子的DL模型得分小于0.75,则这个句子和之后的句子都暂时不考虑,并且把它前面的所有句子预测为论点,如果文章句子数量大于等于15并且该句子的基于规则的得分大于22,则将这个句子预测为论点;如果文章句子数量大于等于30并且该句子的后面一个句子基于规则的得分大于16,则再额外地将该句子的后面一个句子预测为论点;如果文章没有论点,则再将总得分最高的句子预测为唯一的一个论点,最后输出一个列表,由01组成,代表每个句子是否是论点;所述论点划档部分,划分为4档,1代表准确,2代表比较准确,3代表基本准确,4代表不准确,对提取出的论点和每个标答论点、主题句一一组成句对,通过BILSTM进行句对匹配计算0-1之间的得分,将每个论点的所有句对得分取平均作为论点最后匹配分,根据匹配分将论点划分为4档;并根据各个论点的划档,确定作文总的论点划档,规则如下:若有1档论点,则总档为1档;否则,若有4档论点,则总档为4档;否则,若论点数小于3,则总档为3档;否则,总档为所有论点划档的平均取整;所述论据提取和划档将提取出的论点句之间的句子作为论据候选句列表,和其前面的论点句组成句对q,a,将q和a分词后,通过腾讯词向量转为词向量,然后分别通过BiLSTM,分别得到q和a的句向量,将两个向量进行拼接,通过一个两层的全连接神经网络,最后通过units为5,激活函数为softmax的全连接层得到5分类的结果,其中1代表是论据且论证有力;2代表是论据且论证比较有力;3代表是论据且论证基本有力;4代表是论据但是缺乏论证力度;5代表不是论据,最终取所有论据句平均取整分数作为总的论据划档。
全文数据:
权利要求:
百度查询: 北京华图宏阳网络科技有限公司 一种中文议论文智能批改方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。