Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 四川语言桥信息技术有限公司朱宪超获国家专利权

四川语言桥信息技术有限公司朱宪超获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉四川语言桥信息技术有限公司申请的专利一种web双语平行语料提取的方法、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121435997B

龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202512027778.2,技术领域涉及:G06F40/58;该发明授权一种web双语平行语料提取的方法、装置及介质是由朱宪超;魏杰;崔碧野;李晶设计研发完成,并于2025-12-30向国家知识产权局提交的专利申请。

一种web双语平行语料提取的方法、装置及介质在说明书摘要公布了:本发明属于机器翻译技术领域,提供了一种web双语平行语料提取的方法、装置及介质,其中,方法包括:步骤S1:从互联网中选择含有平行语料的网站;步骤S2:获取到web页面内容;步骤S3:对于每个文本块,基于语言的断句规则进行句子拆分;步骤S4:删除空白行和重复行,对于每一行文本进行语种识别;步骤S5:将同一语种的句子按在web页面中的原始顺序进行分组,得到第一语种句子组和第二语种句子组,并计算两组间的句子数量差异A,当存在句子数量差异时,进行句对齐;步骤S6:将处理后的平行语料保存为平行语料库。本发明将机器翻译定位为辅助对齐工具而非语料生成工具,确保了语料库的纯净度和作为真实语言范例的高价值。

本发明授权一种web双语平行语料提取的方法、装置及介质在权利要求书中公布了:1.一种web双语平行语料提取的方法,其特征在于,包括以下步骤: 步骤S1:从互联网中选择含有平行语料的网站,并保存在本地或者数据库中,作为待采集网站池或者待采集网站文件; 步骤S2:获取到web页面内容,使用网络爬虫框架获取web页面的HTML内容,然后使用解析器提取web页面中的文本信息,其中,将文本信息中的段落、列表和标题分别分类保存,每个段落、列表项或标题保存为一个独立的文本块; 步骤S3:对于每个文本块,基于语言的断句规则,进行句子拆分,同时,使用预训练的句子边界检测模型对复杂文本进行辅助断句,处理引用或括号内容; 步骤S4:删除文本中的空白行和完全相同的重复行;随后,对于每一行文本,使用语言检测模型计算其属于语种的置信度分数,保留置信度高于设定阈值的句子,移除置信度低于该阈值的句子; 步骤S5:将同一语种的句子按在web页面中的原始顺序进行分组,得到第一语种句子组和第二语种句子组,并计算两组间的句子数量差异A,当存在句子数量差异时,进行句对齐; 步骤S6:将处理后的平行语料保存为平行语料库; 所述步骤S5中,当存在句子数量差异时,进行句对齐的方法如下: 步骤S5.1:翻译辅助:选取所述第一语种句子组和第二语种句子组中句子数量最少的句子组,并将该句子组的原始句子通过预训练的机器翻译模型临时翻译成另一语种,得到一个辅助翻译句集合; 步骤S5.2:相似度匹配:对于所述辅助翻译句集合中的每一个句子执行下述步骤:选取所述第一语种句子组和第二语种句子组中句子数量最多的句子组,并在该句子组的原始句子中,以当前位置为基础,在一个大小为A+1的滑动窗口内进行遍历,并使用句子嵌入模型计算辅助翻译句与窗口内每个原始句子的相似度得分; 步骤S5.3:真实句对提取:当存在相似度得分不低于设定阈值的句子时,保留其中得分最高的一对; 步骤S5.4:遍历结束后,获得所有成功匹配的原始句对,构成处理后的平行语料; 还包括步骤S5.5:基于步骤S5.4中处理后的平行语料,通过计算句对长度比和关键词匹配度,过滤掉过译或少译的句对,其中,长度比超过设定范围或关键词匹配度低于阈值的句对被移除。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川语言桥信息技术有限公司,其通讯地址为:610000 四川省成都市成都高新区天府大道北段1288号1幢1单元801、802、803号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。