买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明实施例公开了语料生成方法、语料生成装置、和存储介质,该语料生成装置涉及人工智能领域中自然语言处理,本发明可以获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体,对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本,对所述语料模板进行分组,得到多个子语料模板,对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。本发明实施例可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
主权项:1.一种语料生成方法,其特征在于,包括:获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体;对所述标注实体进行筛选,以生成语料模板,包括:对所述标注实体进行主语筛选,以使得筛选出的主语形成主语文本;确定所述主语文本与输出文本的映射关系;去除完主语文本的标注实体,形成语料模板;其中,所述语料模板包括具有扩展样例的通用文本;对所述语料模板进行分组,得到多个子语料模板;对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,包括:将所述语料模板映射到实体列表;将所述实体列表依次遍历所有子语料模板,得到扩展语料数据;其中,所述扩展语料数据为经过交叉组合后的语料模板;将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,包括:获取所述预存语料数据中的知识图谱实体;去除所述知识图谱中所述主语文本与输出文本映射关系匹配的实体,得到去除后的知识图谱实体;将去除后的知识图谱实体与所述语料模板进行组合,得到组合后语料数据;基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。
全文数据:
权利要求:
百度查询: 腾讯科技(深圳)有限公司 语料生成方法、语料生成装置、和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。