买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京智源人工智能研究院
摘要:本发明公开了一种基于信息压缩的文本表示方法、装置和电子设备,涉及人工智能技术领域。方法包括:将当前文本分别进行分词和分段;将每个分词及该分词对应的分段的编号均转化为向量表示并求和,得到当前文本的文本表示;将上一文本的距离当前文本最近的若干个历史段落表示分别进行编号,将各历史段落表示的编号均转化为向量表示并与对应的历史段落表示求和,得到历史段落的输入表示;将历史段落的输入表示和当前文本的文本表示拼接得到隐状态表示;经过语言模型计算,输出当前文本的每个单词的最终编码表示。该方法节省了显存占用,模型处理窗口长度大大增长,在计算消耗上具有很大的优势;同时使得自注意力机制能够更准确地关注到目标词。
主权项:1.一种基于信息压缩的文本表示方法,其特征在于,包括:将当前文本分别进行分词和分段;对各个分段分别进行编号,将每个分词及该分词对应的分段的编号均转化为向量表示并求和,得到当前文本的文本表示;将上一文本的距离当前文本最近的若干个历史段落表示分别进行编号,将各历史段落表示的编号均转化为向量表示并与对应的历史段落表示求和,得到历史段落的输入表示;将历史段落的输入表示和当前文本的文本表示拼接得到隐状态表示;将隐状态表示输入至语言模型中,经过计算,输出当前文本的每个单词的最终编码表示;将当前文本的各个段落中的最后一个单词的最终编码表示作为对应段落的历史段落表示并保存用于下一文本计算。
全文数据:
权利要求:
百度查询: 北京智源人工智能研究院 一种基于信息压缩的文本表示方法、装置和电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。