车智互联(北京)科技有限公司谢南获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉车智互联(北京)科技有限公司申请的专利一种新词发现方法、计算设备及可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115687639B 。
龙图腾网通过国家知识产权局官网在2026-01-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211248882.4,技术领域涉及:G06F16/36;该发明授权一种新词发现方法、计算设备及可读存储介质是由谢南设计研发完成,并于2022-10-12向国家知识产权局提交的专利申请。
本一种新词发现方法、计算设备及可读存储介质在说明书摘要公布了:本公开公开了一种新词发现方法、计算设备及可读存储介质。其中新词发现方法包括:对文本数据进行处理,得到包含多个字的序列,作为字串;通过统计各字串的词信息和多种词特征,来确定出候选字串;基于候选字串的特征向量生成特征集,其中特征向量包含词特征和主题向量;利用机器学习,对特征集进行迭代处理,以生成包含多个新词的新词集合;以及针对新词集合,基于各新词的语义向量和组成对应新词的子词的语义向量,对新词进行筛选,以确定出最终的新词。
本发明授权一种新词发现方法、计算设备及可读存储介质在权利要求书中公布了:1.一种新词发现方法,包括: 对文本数据进行处理,得到包含多个字的序列,作为字串; 通过统计各字串的词信息和多种词特征,来确定出候选字串; 基于候选字串的特征向量生成特征集,其中所述特征向量包含所述词特征和主题向量; 利用机器学习,对所述特征集进行迭代处理,以生成包含多个新词的新词集合; 针对所述新词集合,基于各新词的语义向量和组成对应新词的子词的语义向量,对新词进行筛选,以确定出最终的新词; 其中,所述通过统计各字串的词信息和多种词特征,来确定出候选字串的步骤包括: 对各字串进行词信息统计,以生成第一候选字串集; 计算所述第一候选字串集中各候选字串的词特征,并基于所述词特征来生成第二候选字串集,其中所述第二候选字串集中的候选字串就是确定出的候选字串; 其中,对各字串进行词信息统计,以生成第一候选字串集的步骤包括: 统计各字串的词频和逆文本频率指数; 至少基于所述词频和所述逆文本频率指数的值进行判断,以过滤掉小于对应中位数值的字串,生成第一候选字串集; 其中,所述词特征包括凝固度、加权左右信息熵和出现概率,所述计算所述第一候选字串集中各候选字串的词特征,并基于所述词特征来生成第二候选字串集的步骤包括: 计算各候选字串的凝固度; 分别计算各候选字串的左信息熵和右信息熵,并基于左信息熵和右信息熵确定加权左右信息熵; 基于语言模型,确定各候选字串的出现概率; 基于所述凝固度、加权左右信息熵和出现概率,确定出各候选字串的分值,并基于所述分值对所述候选字串进行筛选,以生成第二候选字串集; 其中,所述计算各候选字串的凝固度的步骤包括: 统计组成所述候选字串的各子集的点互信息的最小值; 利用所述候选字串的长度对所述最小值进行处理,以确定出所述候选字串的凝固度; 其中,所述凝固度通过如下公式来确定: 式中,PLMI表示凝固度,a,b,c表示候选字串的子集,px表示x出现的概率,word.length表示候选字串的长度,α1和α2为参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人车智互联(北京)科技有限公司,其通讯地址为:100080 北京市海淀区丹棱街3号B座11层1110、1111室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励