买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学
摘要:本申请涉及自然语言处理技术领域,特别涉及一种问题答案对生成方法、装置、电子设备及存储介质,其中,方法包括:获取段落文本,并识别段落文本对应待转换的目标文本类型;将段落文本输入至已训练的语言模型,将段落文本转换为目标文本类型对应的目标文本;从目标文本中提取至少一个问题答案对,其中,问题答案对包括问题及问题对应的答案;从至少一个问题答案对中,确定目标问题答案对。由此,解决了相关技术中,仅仅是针对现有的文章,其文本类型较为单一,因此训练得到的问答系统泛化能力较差,此外,在为提出的问题提供答案时,由于识别到的问题不准确,导致提供错误的答案,从而使得问答系统的准确率较低,影响用户体验的技术问题。
主权项:1.一种问题答案对生成方法,其特征在于,包括以下步骤:获取段落文本,并识别所述段落文本对应待转换的目标文本类型;将所述段落文本输入至已训练的语言模型,将所述段落文本转换为所述目标文本类型对应的目标文本;从所述目标文本中提取至少一个问题答案对,其中,所述问题答案对包括问题及所述问题对应的答案;以及从至少一个问题答案对中,确定目标问题答案对;其中,所述从所述目标文本中提取至少一个问题答案对,包括:获取所述目标文本中指代词所指代的目标名词,并将所述目标名词替换所述指代词,得到替换文本;将所述替换文本输入预设的多任务模型,得到所述多任务模型输出的至少一个三元组;对所述三元组中的元素进行实体命名,得到至少一个实体三元组;根据所述至少一个实体三元组和预设的问题模板,生成至少一个问题答案对;其中,所述多任务模型包括共享编码器、抽取任务解码器,以及分类任务解码器,所述共享编码器和所述抽取任务解码器实现对三元组的抽取,所述共享编码器和所述分类任务解码器实现对所述替换文本的词组进行分类,其中,所述将所述替换文本输入预设的多任务模型,得到所述多任务模型输出的至少一个三元组,包括:将所述替换文本输入所述共享编码器,得到所述替换文本对应的向量编码序列;将所述向量编码序列分别输入所述抽取任务解码器和所述分类任务解码器中,得到所述抽取任务解码器输出的至少一个初始三元组及所述分类任务解码器输出的所述替换文本的分类结果,其中,所述分类结果包括所述替换文本中每个词组的词性;根据所述分类结果对每个初始三元组进行调整,得到至少一个调整后的三元组,并将调整后的所述三元组确定为所述多任务模型输出的三元组。
全文数据:
权利要求:
百度查询: 清华大学 问题答案对生成方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。