恭喜粤港澳大湾区数字经济研究院(福田)江旭晖获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜粤港澳大湾区数字经济研究院(福田)申请的专利基于语言模型的训练语料生成方法、系统、终端及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119578416B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510129515.X,技术领域涉及:G06F40/279;该发明授权基于语言模型的训练语料生成方法、系统、终端及介质是由江旭晖;徐铖晋;杨策皓;林舟驰;郭健设计研发完成,并于2025-02-05向国家知识产权局提交的专利申请。
本基于语言模型的训练语料生成方法、系统、终端及介质在说明书摘要公布了:本发明公开了基于语言模型的训练语料生成方法、系统、终端及介质,涉及人工智能技术领域。所述方法通过获取原始待训练语料,根据所述原始待训练语料获取目标段落;从多种类型的增强训练语料提示中选择目标增强训练语料提示,其中每种类型的增强训练语料提示用于生成不同类型的增强训练语料;根据所述目标段落和所述目标增强训练语料提示,通过第一语言模型生成增强训练语料;基于所述增强训练语料构建合成训练语料。本发明预先设置了多种类型的增强训练语料提示,通过增强训练语料提示指引语言模型在原始训练语料的基础上合成新的文本语料,有效地提高了训练语料的规模,并丰富了训练语料的多样性。
本发明授权基于语言模型的训练语料生成方法、系统、终端及介质在权利要求书中公布了:1.一种基于语言模型的训练语料生成方法,其特征在于,所述方法包括:获取原始待训练语料,根据所述原始待训练语料获取目标段落,包括:根据所述原始待训练语料获取实体集,所述实体集包括所述原始待训练语料中每一原始段落的全部实体;根据所述实体集和所述原始待训练语料,生成映射关系字典,所述映射关系字典用于反映所述实体集中每个实体与每个实体对应的全部所述原始段落的映射关系;根据所述映射关系字典获取所述目标段落;其中,根据所述映射关系字典获取所述目标段落,包括:根据所述映射关系字典构建实体图谱;对所述实体图谱进行多次采样,得到多个段落子集;将各所述段落子集的段落分别作为所述目标段落;从多种类型的增强训练语料提示中选择目标增强训练语料提示,其中每种类型的增强训练语料提示用于生成不同类型的增强训练语料;根据所述目标段落和所述目标增强训练语料提示,通过第一语言模型生成增强训练语料;基于所述增强训练语料构建合成训练语料。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人粤港澳大湾区数字经济研究院(福田),其通讯地址为:518045 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼3901单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。