首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于相似度检测的原创内容申明方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海易点时空网络有限公司

摘要:本发明实施例公开一种基于相似度检测的原创内容申明方法及装置,其中方法包括如下步骤:当获取到原创申明请求时,按照原创申明请求对应的原创内容中的分隔符将原创内容拆分为不同的原创短句,采用相似度算法将原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值,当相似度值小于或等于最小相似度阈值时,响应原创申明请求对原创内容进行内容发布。采用本发明,通过对原创内容进行原创申明前的相似度检测,可以预先阻止非原创内容的发布,避免侵权行为的发生。

主权项:1.一种基于相似度检测的原创内容申明方法,其特征在于,包括:当获取到原创申明请求时,按照所述原创申明请求对应的原创内容中的分隔符将所述原创内容拆分为不同的原创短句;采用相似度算法将所述原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值;当所述相似度值小于或等于最小相似度阈值时,响应所述原创申明请求对所述原创内容进行内容发布。

全文数据:基于相似度检测的原创内容申明方法及装置技术领域本发明涉及社区原创内容保护技术领域,尤其涉及一种基于相似度检测的原创内容申明方法及装置。背景技术在大部分的社区系统里面,经常会有各种发帖回复奖励活动,为了赢取活动奖品,部分用户会不折手段去进行各种抄袭行为,严重影响了运营活动的公平公正性。如何解决这种违法活动规则的行为,保护原创作者的合法权益,是所有社区内容平台亟需解决的问题。此外,尽管现在出现了很多结合区块链技术解决原创保护问题的方案,但是这个只针对区块链内已登记用户的,而且只有在侵权行为发生后才会通知到用户,缺乏实时的预检机制。发明内容本发明实施例提供一种基于相似度检测的原创内容申明方法及装置,通过对原创内容进行原创申明前的相似度检测,可以预先阻止非原创内容的发布,避免侵权行为的发生。本发明实施例第一方面提供了一种基于相似度检测的原创内容申明方法,可包括:当获取到原创申明请求时,按照原创申明请求对应的原创内容中的分隔符将原创内容拆分为不同的原创短句;采用相似度算法将原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值;当相似度值小于或等于最小相似度阈值时,响应原创申明请求对原创内容进行内容发布。进一步的,上述采用相似度算法将原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值,包括:基于文法表达方式提取原创短句中的第一关键词和已发布原创内容对应的短句中的第二关键词;采用相似度算法计算第一关键词与第二关键词之间的相似度值。进一步的,上述方法还包括:当相似度阈值大于或等于最大相似度阈值时,停止响应原创内容申明请求。进一步的,上述方法还包括:当相似度阈值大于最小相似度阈值且小于最大相似度阈值时,为原创内容申明请求对应的原创内容匹配异步审核方式。进一步的,上述方法还包括:在停止响应原创内容申明请求后,输出侵权告警信息。本发明实施例第二方面提供了一种基于相似度检测的原创内容申明装置,可包括:原创内容分隔模块,用于当获取到原创申明请求时,按照原创申明请求对应的原创内容中的分隔符将原创内容拆分为不同的原创短句;相似度值计算模块,用于采用相似度算法将原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值;申明请求响应模块,用于当相似度值小于或等于最小相似度阈值时,响应原创申明请求对原创内容进行内容发布。进一步的,上述相似度值计算模块包括:关键词提取单元,用于基于文法表达方式提取原创短句中的第一关键词和已发布原创内容对应的短句中的第二关键词;相似度值计算单元,用于采用相似度算法计算第一关键词与第二关键词之间的相似度值。进一步的,上述装置还包括:请求响应停止模块,用于当相似度阈值大于或等于最大相似度阈值时,停止响应原创内容申明请求。进一步的,上述装置还包括:审核方式匹配模块,用于当相似度阈值大于最小相似度阈值且小于最大相似度阈值时,为原创内容申明请求对应的原创内容匹配异步审核方式。进一步的,上述装置还包括:告警信息输出模块,用于在停止响应原创内容申明请求后,输出侵权告警信息。在本发明实施例中,通过对原创内容进行原创申明前的相似度检测,在相似度值满足最小阈值时,响应原创申明请求,发布原创内容。提前阻止了非原创内容的发布,避免了侵权行为的发生。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1是本发明实施例提供的一种基于相似度检测的原创内容申明方法的流程示意图;图2是本发明实施例提供的一种基于相似度检测的原创内容申明装置的结构示意图;图3是本发明实施例提供的相似度值计算模块的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。本发明实施例提供的基于相似度检测的原创内容申明方法可以应用于中文社区类原创内容保护的应用场景。在本发明实施例中,基于相似度检测的原创内容申明装置可以是智能手机、平板电脑等终端设备。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。下面将结合附图1,对本发明实施例提供的基于相似度检测的原创内容申明方法进行详细介绍。请参见图1,为本发明实施例提供了一种基于相似度检测的原创内容申明方法的流程示意图。如图1所示,本发明实施例的所述方法可以包括以下步骤S101-步骤S103。S101,当获取到原创申明请求时,按照原创申明请求对应的原创内容中的分隔符将原创内容拆分为不同的原创短句。具体的,上述装置可以在获取到原创申明请求时,按照该请求对应的原创内容中的分隔符将原创内容拆分为不同的原创短句,可以理解的是,上述分隔符可以是原创内容中的段落符、逗号、分号、句号等对文本进行划分的符号。所划分后的原创内容的原创短句可以是一个词、一句话或者一段话等。S102,采用相似度算法将原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值。可以理解的是,上述装置还可以按照上述分隔符拆分方法对平台中已经发布的原创内容进行拆分,得到已发布原创内容对应的短句。进一步的,上述装置可以采用相似度算法计算上述原创短句与已发布原创内容对应的短句进行相似度匹配得到相似度值,可以理解的是,上述相似度值可以用于评估两篇原创内容之间相似的程度。上述相似度算法可以是欧几里得距离或余弦相似度。在可选实施例中,上述装置可以基于文法表达方式提取原创短句中的第一关键词和已发布原创内容对应的短句中的第二关键词,可以理解的是,上述基于文法表达方式的提取可以是对短句进行主、谓、宾关键词的提取。进一步的,可以采用上述相似度算法计算第一关键词和第二关键词之间的相似度值。在可选实施例中,上述装置可以采用机器学习检测算法进行相似度检测,通过对关键字、短句等特征内容进行机器样本训练,提高机器检测算法的识别率。S103,当相似度值小于或等于最小相似度阈值时,响应原创申明请求对原创内容进行内容发布。具体的,当相似度值小于或等于最小相似度阈值时,可以认为原创申明请求对应的原创内容不存在抄袭侵权的嫌疑,是作者原创的内容,从而可以响应原创申明请求对原创内容进行内容发布。在可选实施例中,当相似度阈值大于或等于最大相似度阈值时,可以认为原创申明请求对应的原创内容是抄袭的,作者的创作属于侵权行为,从而可以停止响应原创内容申明请求,禁止非原创内容的发布,防止真正的原创内容被抄袭。可选的,停止响应上述请求后,可以输出侵权告警信息。在可选实施例中,上述装置可以针对每一个用户设置一信用值账户,用户没发表一个原创内容可以增加该账户内信用值的大小,若发布的内容存在抄袭行为,则降低账户内信用值的大小。可以理解的是,上述装置在停止响应上述原创申明请求后,可以降低该请求对应的信用账户内信用值的大小。在可选实施例中,当上述相似度阈值大于最小相似度阈值且小于最大相似度阈值时,可以认为请求对应的原创内容可能存在抄袭嫌疑,为进一步确定是否真的存在抄袭嫌疑,上述装置可以为原创内容申明请求对应的原创内容匹配异步审核方式,由人工进行审核,增加了对相似度检测的精确性。在本发明实施例中,通过对原创内容进行原创申明前的相似度检测,在相似度值满足最小阈值时,响应原创申明请求,发布原创内容。提前阻止了非原创内容的发布,避免了侵权行为的发生。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机装置中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。下面将结合附图2和附图3,对本发明实施例提供的基于相似度检测的原创内容申明装置进行详细介绍。需要说明的是,附图2和附图3所示的基于相似度检测的原创内容申明装置,用于执行本发明图1所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1所示的实施例。请参见图2,为本发明实施例提供了一种基于相似度检测的原创内容申明装置的结构示意图。如图2所示,本发明实施例的原创内容申明装置10可以包括:原创内容分隔模块101、相似度值计算模块102、申明请求响应模块103、请求响应停止模块104、审核方式匹配模块105和告警信息输出模块106。其中,相似度值计算模块102如图3所示关键词提取单元1021和相似度值计算单元1022。原创内容分隔模块101,用于当获取到原创申明请求时,按照原创申明请求对应的原创内容中的分隔符将原创内容拆分为不同的原创短句。具体实现中,原创内容分隔模块101可以在获取到原创申明请求时,按照该请求对应的原创内容中的分隔符将原创内容拆分为不同的原创短句,可以理解的是,上述分隔符可以是原创内容中的段落符、逗号、分号、句号等对文本进行划分的符号。所划分后的原创内容的原创短句可以是一个词、一句话或者一段话等。相似度值计算模块102,用于采用相似度算法将原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值。可以理解的是,原创内容分隔模块101还可以按照上述分隔符拆分方法对平台中已经发布的原创内容进行拆分,得到已发布原创内容对应的短句。进一步的,相似度值计算模块102可以采用相似度算法计算上述原创短句与已发布原创内容对应的短句进行相似度匹配得到相似度值,可以理解的是,上述相似度值可以用于评估两篇原创内容之间相似的程度。上述相似度算法可以是欧几里得距离或余弦相似度。在可选实施例中,关键词提取单元1021可以基于文法表达方式提取原创短句中的第一关键词和已发布原创内容对应的短句中的第二关键词,可以理解的是,上述基于文法表达方式的提取可以是对短句进行主、谓、宾关键词的提取。进一步的,相似度值计算单元1022可以采用上述相似度算法计算第一关键词和第二关键词之间的相似度值。在可选实施例中,上述装置10可以采用机器学习检测算法进行相似度检测,通过对关键字、短句等特征内容进行机器样本训练,提高机器检测算法的识别率。申明请求响应模块103,用于当相似度值小于或等于最小相似度阈值时,响应原创申明请求对原创内容进行内容发布。具体实现中,当相似度值小于或等于最小相似度阈值时,可以认为原创申明请求对应的原创内容不存在抄袭侵权的嫌疑,是作者原创的内容,从而申明请求响应模块103可以响应原创申明请求对原创内容进行内容发布。在可选实施例中,当相似度阈值大于或等于最大相似度阈值时,可以认为原创申明请求对应的原创内容是抄袭的,作者的创作属于侵权行为,从而请求响应停止模块104可以停止响应原创内容申明请求,禁止非原创内容的发布,防止真正的原创内容被抄袭。可选的,停止响应上述请求后,告警信息输出模块106可以输出侵权告警信息。在可选实施例中,上述装置10可以针对每一个用户设置一信用值账户,用户没发表一个原创内容可以增加该账户内信用值的大小,若发布的内容存在抄袭行为,则降低账户内信用值的大小。可以理解的是,上述装置10在停止响应上述原创申明请求后,可以降低该请求对应的信用账户内信用值的大小。在可选实施例中,当上述相似度阈值大于最小相似度阈值且小于最大相似度阈值时,可以认为请求对应的原创内容可能存在抄袭嫌疑,为进一步确定是否真的存在抄袭嫌疑,审核方式匹配模块105可以为原创内容申明请求对应的原创内容匹配异步审核方式,由人工进行审核,增加了对相似度检测的精确性。在本发明实施例中,通过对原创内容进行原创申明前的相似度检测,在相似度值满足最小阈值时,响应原创申明请求,发布原创内容。提前阻止了非原创内容的发布,避免了侵权行为的发生。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体Read-OnlyMemory,ROM或随机存储记忆体RandomAccessMemory,RAM等。以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

权利要求:1.一种基于相似度检测的原创内容申明方法,其特征在于,包括:当获取到原创申明请求时,按照所述原创申明请求对应的原创内容中的分隔符将所述原创内容拆分为不同的原创短句;采用相似度算法将所述原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值;当所述相似度值小于或等于最小相似度阈值时,响应所述原创申明请求对所述原创内容进行内容发布。2.根据权利要求1所述的方法,其特征在于,所述采用相似度算法将所述原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值,包括:基于文法表达方式提取所述原创短句中的第一关键词和所述已发布原创内容对应的短句中的第二关键词;采用相似度算法计算所述第一关键词与所述第二关键词之间的相似度值。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述相似度阈值大于或等于最大相似度阈值时,停止响应所述原创内容申明请求。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述相似度阈值大于最小相似度阈值且小于最大相似度阈值时,为所述原创内容申明请求对应的原创内容匹配异步审核方式。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:在停止响应所述原创内容申明请求后,输出侵权告警信息。6.一种基于相似度检测的原创内容申明装置,其特征在于,包括:原创内容分隔模块,用于当获取到原创申明请求时,按照所述原创申明请求对应的原创内容中的分隔符将所述原创内容拆分为不同的原创短句;相似度值计算模块,用于采用相似度算法将所述原创短句与平台中的已发布原创内容对应的短句进行相似度匹配得到相似度值;申明请求响应模块,用于当所述相似度值小于或等于最小相似度阈值时,响应所述原创申明请求对所述原创内容进行内容发布。7.根据权利要求6所述的装置,其特征在于,所述相似度值计算模块包括:关键词提取单元,用于基于文法表达方式提取所述原创短句中的第一关键词和所述已发布原创内容对应的短句中的第二关键词;相似度值计算单元,用于采用相似度算法计算所述第一关键词与所述第二关键词之间的相似度值。8.根据权利要求6所述的装置,其特征在于,所述装置还包括:请求响应停止模块,用于当所述相似度阈值大于或等于最大相似度阈值时,停止响应所述原创内容申明请求。9.根据权利要求6所述的装置,其特征在于,所述装置还包括:审核方式匹配模块,用于当所述相似度阈值大于最小相似度阈值且小于最大相似度阈值时,为所述原创内容申明请求对应的原创内容匹配异步审核方式。10.根据权利要求8所述的装置,其特征在于,所述装置还包括:告警信息输出模块,用于在停止响应所述原创内容申明请求后,输出侵权告警信息。

百度查询: 上海易点时空网络有限公司 基于相似度检测的原创内容申明方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术