买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北方工业大学
摘要:本发明公开了一种作文抄袭检测方法包括:从数据库中获取与待测段落主题一致的文本;基于所述主题一致的文本,获取若干对比句子,并从所述待测段落中获取若干待测句子;基于所述对比句子,判断所述待测句子是否存在抄袭,完成作文抄袭检测。本发明考虑了文本主题的影响,从主题及句子两个角度出发综合判断作文的抄袭情况。
主权项:1.一种作文抄袭检测方法,其特征在于,包括:从数据库中获取与待测段落主题一致的文本;从数据库中获取与待测段落主题一致的文本包括:获取作文中的若干所述待测段落的主题;分别获取所述待测段落和所述数据库中文本的向量化主题,判断所述待测段落的向量化主题与所述数据库中文本的向量化主题是否一致,一致,则从数据库中获取与待测段落主题一致的文本,不一致,则继续检测作文中剩余所述待测段落;判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致包括:通过HAN模型,获取所述待测段落与数据库中文本的主题向量化表示;通过BiGRU模型,获取所述待测段落与数据库中文本主题向量的全局特征;基于所述全局特征,通过CNN模型获取所述待测段落与数据库中文本主题向量的局部特征;基于所述全局特征和所述局部特征,通过Attention模型获取所述待测段落与数据库文本的向量化主题;基于所述主题向量化表示,通过softmax得到主题是否一致的最终结果;基于所述主题一致的文本,获取若干对比句子,并从所述待测段落中获取若干待测句子;基于所述对比句子,判断所述待测句子是否存在抄袭,完成作文抄袭检测;判断所述待测句子是否存在抄袭包括:将所述待测句子进行向量化表示,判断所述待测句子的向量化表示与所述数据库中主题一致文本所获取的对比句子的向量化表示语义是否一致;若不一致,则不存在抄袭,继续检测下一句所述待测句子;若一致,则存在抄袭,获得抄袭句子;判断所述待测句子的向量化表示与数据库中主题一致文本所获取的句子的向量化表示语义是否一致包括:通过GCNN-BiGRU模型,获取所述待测句子与主题一致文本所获取对比句子的全局特征;通过BiGRU-GCNN模型,获取所述待测句子与主题一致文本所获取对比句子的局部特征;基于所述全局特征和所述局部特征,通过ISA模型获取所述待测句子与主题一致文本所获取对比句子的语义特征;通过Bert模型,获取所述待测句子与主题一致文本所获取对比句子的结构特征;基于所述语义特征和所述结构特征,获取所述待测句子与主题一致文本所获取对比句子的向量化表示;基于所述向量化表示,通过softmax判断句子是否一致。
全文数据:
权利要求:
百度查询: 北方工业大学 一种作文抄袭检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。