买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江工业大学
摘要:基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置,其方法包括:S1:对数据集预处理;S2:中文分词操作,获得拼音嵌入向量PE;S3:将段落和问题拼接,输入到BERT,得到词嵌入向量Etoken;S4:基于拼音嵌入PE和词嵌入Etoken,通过全连接层,再与段嵌入Eseg和位置嵌入Epos相加,得到嵌入向量w;S5:进行BERT编码,得到编码向量表示;S6:将编码向量表示与词嵌入表示进行多层注意力融合,得到融合低层级问题语义信息的上下文表示向量;S7:进行多层注意力融合计算,得到融合高层级问题语义信息的上下文表示向量;S8:利用编码器的自注意力,得到融合多层信息的上下文语义向量;S9:预测答案起始点和结束点的概率分布,选择概率最大的组合确定答案跨度。
主权项:1.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,包括以下步骤:步骤1:对数据集进行预处理,将数据集处理成包含上下文C,问题Q和答案A构成的三元组,将数据集D表示为{Di|Di=C,Q,A,1≤i≤n},其中n表示数据集D的大小,Di代表数据集的第i个数据,答案A是上下文C中的一个连续子串;步骤2:对步骤1处理得到的数据进行中文分词操作,得到文本的词语序列,将得到的中文词语序列,通过一个卷积网络,来获得中文词语的拼音嵌入向量PE;步骤3:基于步骤1得到的数据通过标识[CLS]和[SEP],将段落和问题进行拼接,然后输入到BERT中,利用BERT的wordpiece中文分词,得到每个词的词嵌入向量Etoken;步骤4:基于步骤2和步骤3分别得到的拼音嵌入PE和词嵌入Etoken,通过一个全连接层,得到一个融合拼音嵌入向量的融合词嵌入FE。接着再与输入序列的段嵌入Eseg和位置嵌入Epos进行相加,得到完整的输入序列的嵌入向量w;步骤5:基于步骤4得到的序列嵌入向量进行BERT编码,这样可以得到不同编码层输出的编码向量表示;步骤6:基于步骤5的操作,将BERT模型前六层编码器获得的编码表示与步骤5得到的词嵌入表示进行多层注意力融合计算,得到融合低层级问题语义信息的上下文表示向量vCl,其中C表示上下文,l表示低层级信息融合;步骤7:对步骤6得到的上下文编码表示与第六层的问题编码表示输入到第七层编码器中,依次会得到第七层到第十一层编码器的编码表示,再与步骤5的词嵌入向量和步骤6得到的低层级编码表示进行多层注意力融合计算,得到融合高层级问题语义信息的上下文表示向量vCh,其中C表示上下文,h表示高层级信息融合;步骤8:基于步骤7得到的高层级的上下文表示与第十一层编码器的问题表示向量输入到最后一个编码器中,利用编码器的自注意力,得到最终的融合多层信息的上下文语义向量其中C表示上下文,Q表示问题,m和n分别表示上下文和问题的长度,L12表示第十二层编码器得到的编码表示,h代表低层级编码向量;步骤9:基于步骤8得到的句向量表示,通过softmax函数预测每个位置作为答案起始点和结束点的概率分布,最终遍历所有可能的起始点和结束点组合,选择概率乘积最大的组合来确定答案的跨度。
全文数据:
权利要求:
百度查询: 浙江工业大学 基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。