首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于语言模型的文本补全方法、装置、设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本申请涉及自然语言处理技术领域,揭露一种基于语言模型的文本补全方法、装置、设备及存储介质,其中方法包括获取多个待补全文本,并获取多个待补全文本对应的文本序列,再对每个文本序列进行等长填充,得到基础文本序列,然后基于基础文本序列,构成矩阵向量,通过将矩阵向量输入到语言模型中进行概率计算,获取字符概率集,并结合束搜索的方式,获取每个字符概率集中概率最大的字符序列,得到目标字符序列,再通过目标字符序列对待补全文本进行补全。本申请还涉及区块链技术,待补全文本存储于区块链中。本申请实现了通过对多个文本序列进行概率计算,并结合束搜索的方式,获取目标字符序列,从而有利于提高文本补全的效率。

主权项:1.一种基于语言模型的文本补全方法,其特征在于,包括:获取多个待补全文本,并基于预设词表,获取多个所述待补全文本对应的文本序列,得到多个初始文本序列;识别出每个所述初始文本序列最后一个位置的字符,并将所述最后一个位置的字符作为预测字符;基于所述初始文本序列的预测字符,将所述初始文本序列按照预设文本长度进行等长填充,得到多个基础文本序列;将多个所述基础文本序列分别与预设向量进行向量计算,构成多个矩阵向量,并将多个所述矩阵向量输入到语言模型中分别进行所述预测字符的概率计算,得到每个所述预测字符对应的字符概率集;采用束搜索的方式,获取每个所述字符概率集中概率最大的字符序列,得到每个待补全文本对应的目标字符序列;基于所述目标字符序列,将所述待补全文本进行补全;其中,所述将多个所述基础文本序列分别与预设向量进行向量计算,构成多个矩阵向量,并将多个所述矩阵向量输入到语言模型中分别进行所述预测字符的概率计算,得到每个所述预测字符对应的字符概率集,包括:将多个所述基础文本序列分别与预设向量进行向量计算,构成多个矩阵向量;识别出每个所述矩阵向量的填充字符,并将所述填充字符的权重设置为零,得到多个目标矩阵向量;将多个所述目标矩阵向量输入到所述语言模型GPT-2中,通过所述模型GPT-2的嵌入层和Transformer层的堆叠计算,以对所述预测字符的矩阵计算,得到基础向量;将所述基础向量映射到所述预设词表中,得到目标向量;采用softmax函数的方式,对所述目标向量进行归一化处理,得到每个所述预测字符对应的字符概率集。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 基于语言模型的文本补全方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术