基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置

导航：龙图腾网> 最新专利技术> 基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江工业大学

摘要：基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置，其方法包括：S1：对数据集预处理；S2：中文分词操作，获得拼音嵌入向量PE；S3：将段落和问题拼接，输入到BERT，得到词嵌入向量Etoken；S4：基于拼音嵌入PE和词嵌入Etoken，通过全连接层，再与段嵌入Eseg和位置嵌入Epos相加，得到嵌入向量w；S5：进行BERT编码，得到编码向量表示；S6：将编码向量表示与词嵌入表示进行多层注意力融合，得到融合低层级问题语义信息的上下文表示向量；S7：进行多层注意力融合计算，得到融合高层级问题语义信息的上下文表示向量；S8：利用编码器的自注意力，得到融合多层信息的上下文语义向量；S9：预测答案起始点和结束点的概率分布，选择概率最大的组合确定答案跨度。

主权项：1.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法，包括以下步骤：步骤1：对数据集进行预处理，将数据集处理成包含上下文C，问题Q和答案A构成的三元组，将数据集D表示为{Di|Di＝C，Q，A，1≤i≤n}，其中n表示数据集D的大小，Di代表数据集的第i个数据，答案A是上下文C中的一个连续子串；步骤2：对步骤1处理得到的数据进行中文分词操作，得到文本的词语序列，将得到的中文词语序列，通过一个卷积网络，来获得中文词语的拼音嵌入向量PE；步骤3：基于步骤1得到的数据通过标识[CLS]和[SEP]，将段落和问题进行拼接，然后输入到BERT中，利用BERT的wordpiece中文分词，得到每个词的词嵌入向量Etoken；步骤4：基于步骤2和步骤3分别得到的拼音嵌入PE和词嵌入Etoken，通过一个全连接层，得到一个融合拼音嵌入向量的融合词嵌入FE。接着再与输入序列的段嵌入Eseg和位置嵌入Epos进行相加，得到完整的输入序列的嵌入向量w；步骤5：基于步骤4得到的序列嵌入向量进行BERT编码，这样可以得到不同编码层输出的编码向量表示；步骤6：基于步骤5的操作，将BERT模型前六层编码器获得的编码表示与步骤5得到的词嵌入表示进行多层注意力融合计算，得到融合低层级问题语义信息的上下文表示向量vCl，其中C表示上下文，l表示低层级信息融合；步骤7：对步骤6得到的上下文编码表示与第六层的问题编码表示输入到第七层编码器中，依次会得到第七层到第十一层编码器的编码表示，再与步骤5的词嵌入向量和步骤6得到的低层级编码表示进行多层注意力融合计算，得到融合高层级问题语义信息的上下文表示向量vCh，其中C表示上下文，h表示高层级信息融合；步骤8：基于步骤7得到的高层级的上下文表示与第十一层编码器的问题表示向量输入到最后一个编码器中，利用编码器的自注意力，得到最终的融合多层信息的上下文语义向量其中C表示上下文，Q表示问题，m和n分别表示上下文和问题的长度，L12表示第十二层编码器得到的编码表示，h代表低层级编码向量；步骤9：基于步骤8得到的句向量表示，通过softmax函数预测每个位置作为答案起始点和结束点的概率分布，最终遍历所有可能的起始点和结束点组合，选择概率乘积最大的组合来确定答案的跨度。

全文数据：

权利要求：

百度查询：浙江工业大学基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于数字密钥的电子公文管理系统及方法

下一篇：一种地表及地下浅层铀矿化的探测方法

相关技术

一种基于数字密钥的电子公文管理系统及方法

一种地表及地下浅层铀矿化的探测方法

投屏声音故障的确定方法、装置、电子设备和存储介质

一种变电站光伏系统发电量与站用电负荷匹配的控制系统及控制方法

一种无施工平台的远岸成品钢管桩的测量方法

用于修复叶片根部的方法

一种铅酸电池自动组装设备及工艺

一种无线电力传输方法、无线电力发送器和无线电力接收器

一种一体式行星齿轮组减速机构

信息展示方法及电子设备

一种电动汽车无线充电系统漏磁优化方法

基于大语言模型的代码处理方法、装置、设备和介质

机器相关技术

机器人传动机构及机器人_深圳市优必选科技股份有限公司_202420530721.2

缝合机器人_江苏风和医疗器材股份有限公司_202310547460.5

清洁机器人_深圳银星智能集团股份有限公司_202010921653.9

机器人抄手_无锡雅佳智能节能科技有限公司_202420552030.2

作业机器人_中联重科股份有限公司_202410391533.0

巡检机器人_汪小鹏_202110467625.9

巡检机器人_深圳优艾智合机器人科技有限公司_202323512148.7

清洁机器人_元鼎智能创新(国际)有限公司_202420036959.X

球形机器人_重庆理工大学_202420707862.7

清洁机器人_深圳库犸科技有限公司_202420595293.1

融合相关技术

融合消息队列的数据库与融合事务的实现方法_灵岫科技(深圳)有限公司_202411092980.2

基于融合终端的充电桩有序充电方法、系统以及融合终端_成都汉度科技有限公司_202411063506.7

数据融合处理方法及装置_北京迈迪斯医疗技术有限公司_202411436626.7

网络融合系统及其控制方法_中车大连电力牵引研发中心有限公司_201811447290.9

一种关节融合器_江苏爱厚朴医疗器械有限公司_202322630535.4

医学图像融合方法及设备_北京迈迪斯医疗技术有限公司_202411445349.6

自稳定椎间融合器_北京纳通医疗科技控股有限公司_202420185447.X

Transformer融合时空-VSG控制方法_四川大学_202411434931.2

一种融合通信盒_陕西瑞欣科技发展有限公司_202420429006.X

基于跨网融合的路侧感知共享系统_重庆邮电大学_202410943001.3

中文相关技术

一种中文长文本特征提取方法及装置_国家电网有限公司大数据中心_202411089604.8

一种扫描跟踪中文图形化快速编程自动化焊接系统_山东万德自动化科技有限公司_202411294138.7

一种基于知识蒸馏技术的中文事件抽取方法_郑州大学_202410979697.5

基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置_浙江工业大学_202410567560.9

基于大型语言模型的中文小样本实体关系联合抽取方法及系统_西安交通大学_202410951777.X

一种基于中文语义增强的法律文书实体抽取方法_上海交通大学_202410987528.6

面向中文医疗文本的异常检测方法、装置、设备和介质_香港中文大学(深圳)_202411031446.0

一种中文资讯热点事件生成系统_车智互联(北京)科技有限公司_202411219744.2

中文地址加密方法、装置、设备及存储介质_深圳市智慧城市科技发展集团有限公司_202411390819.3

基于改进YOLOv5的中文标注手势识别方法与系统_扬州大学_202111551115.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务