恭喜四川语言桥信息技术有限公司朱宪超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜四川语言桥信息技术有限公司申请的专利基于IBMmodel的语料过滤方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114429123B 。
龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210095739.X,技术领域涉及:G06F40/216;该发明授权基于IBMmodel的语料过滤方法及装置是由朱宪超;吴阳剑设计研发完成,并于2022-01-26向国家知识产权局提交的专利申请。
本基于IBMmodel的语料过滤方法及装置在说明书摘要公布了:本发明提供一种基于IBMmodel的语料过滤方法及装置,通过搜集目标语言的海量训练语料,包含原文和其对应的标准译文;对原文和其对应的标准译文进行分词,得到第一集合;将所述第一集合输入IBMModel模型中训练,得出词对齐概率分布和词位置对齐概率分布;将需要过滤的目标语料进行分词处理,得到第二集合;根据所述词对齐概率分布和词位置对齐概率分布,计算所述第二集合中语言对之间的对齐概率得分;通过所述对齐概率得分判断是否过滤语料。使用这种方法,可以对语言对之间的语义是否一致进行判断,从而达到高效过滤脏数据的效果。
本发明授权基于IBMmodel的语料过滤方法及装置在权利要求书中公布了:1.一种基于IBMmodel的语料过滤方法,其特征在于,包括:搜集目标语言的海量训练语料,包含原文和其对应的标准译文;对原文和其对应的标准译文进行分词,得到第一集合;将所述第一集合输入IBMmodel2模型中训练,得出词对齐概率分布和词位置对齐概率分布;将需要过滤的目标语料进行分词处理,得到第二集合;根据所述词对齐概率分布和词位置对齐概率分布,计算所述第二集合中语言对之间的对齐概率得分;通过所述对齐概率得分判断是否过滤语料;所述根据所述词对齐概率分布和词位置对齐概率分布,计算所述第二集合中语言对之间的对齐概率得分,包括:通过所述词对齐概率分布和词位置对齐概率分布,计算第一对齐函数;将第一集合中的原文和译文进行位置倒置;将倒置后的第一集合输入训练后的IBMmodel2模型中,得出新的词对齐概率分布和词位置对齐概率分布;基于新的词对齐概率分布和词位置对齐概率分布,计算第二对齐函数;基于第一对齐函数和第二对齐函数,计算第二集合中语言对之间的对齐概率得分; 其中,score代表对齐概率得分,n代表译文词数量,m代表原文词数量,Peai|fi代表第二集合中译文第i个词与原文中相对应的词eai的词对齐概率,Pfraj|ej代表位置倒置后的第二集合中译文第j个词与原文中相对应的词fraj的词对齐概率,Pai|i,m,n代表第二集合中译文第i个位置与原文第ai个位置对齐的位置对齐概率,Praj|j,m,n代表位置倒置后的第二集合中译文第j个位置与原文第raj个位置对齐的位置对齐概率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川语言桥信息技术有限公司,其通讯地址为:610000 四川省成都市中国(四川)自由贸易试验区成都高新区天府大道北段1288号1幢1单元801、802、803号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。