Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜腾讯科技(深圳)有限公司刘志煌获国家专利权

恭喜腾讯科技(深圳)有限公司刘志煌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜腾讯科技(深圳)有限公司申请的专利确定新词的方法、装置、电子设备及可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN111680146B

龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202010525541.1,技术领域涉及:G06F16/3329;该发明授权确定新词的方法、装置、电子设备及可读存储介质是由刘志煌设计研发完成,并于2020-06-10向国家知识产权局提交的专利申请。

确定新词的方法、装置、电子设备及可读存储介质在说明书摘要公布了:本申请实施例提供了一种确定新词的方法、装置、电子设备及可读存储介质。该方法包括:获取样本文本集;对样本文本集进行字序列挖掘,得到对应于各长度的频繁字序列;确定出对应于各长度的频繁字序列中的各超序列;对于每个超序列,若超序列未包含在样本文本集所包含的各分词中,则将超序列确定为新词。在本申请实施例中,采用字序列挖掘的方式能够更好地将经常更新的字、词或短语筛选出来,将会在分词和新词发现等应用中都有重要的参考价值和实践意义;并且在确定新词的过程中即无需训练复杂的神经网络模型,也不需要人工标注训练样本,进而有效地减少了训练成本。

本发明授权确定新词的方法、装置、电子设备及可读存储介质在权利要求书中公布了:1.一种确定新词的方法,其特征在于,包括: 获取样本文本集; 对所述样本文本集中的各个样本文本分别进行分词,得到所述样本文本集所包含的各分词; 对所述样本文本集进行字序列挖掘,得到对应于各长度的频繁字序列; 确定出所述对应于各长度的频繁字序列中的各超序列; 对于每个所述超序列,若所述超序列未包含在所述样本文本集所包含的各分词中,则将所述超序列确定为新词; 其中,所述对所述样本文本集进行字序列挖掘,得到对应于各长度的频繁字序列,包括: 确定所述样本文本集中每个样本文本的每个字元素对应的比值,将所述比值大于最小支持度阈值的每个字元素分别作为前缀添加到前缀数据集中;其中,对于每个字元素,所述比值为该字元素对应的样本数和总样本数的比值,该字元素对应的样本数是指所述样本文本集中包含该字元素的样本文本的数量; 对前缀数据集不断执行以下更新操作,直至前缀数据集中每项前缀均不存在对应的比值大于所述最小支持度阈值的相邻后缀字元素,或每项前缀的长度达到最大度为止,停止更新操作时前缀数据集中的各个长度的前缀为频繁字序列: 对于所述前缀数据集中的每项前缀,确定该前缀的相邻后缀字元素;若该前缀的相邻后缀字元素对应的比值大于所述最小支持度阈值,则合并该前缀和该前缀的相邻后缀字元素,将合并结果作为新的前缀添加到前缀数据集。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。