首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于ObiBert的甲骨文自动缀合校验方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:安阳师范学院

摘要:本发明公开了一种基于ObiBert的甲骨文自动缀合校验方法,包括以下步骤:S1、收集大量甲骨文的释文文本,在甲骨文专家的直接参与下,形成甲骨文Bert语料;S2、将甲骨文Bert语料中的甲骨文释文文本形成加和向量,具体包括Token嵌入、文本嵌入和位置嵌入的加和,得到ObiBert神经网络模型;S3、然后将缀合后的甲骨片上的甲骨文释文通过ObiBert的NSP模型来判断甲骨文碎片自动缀合的结果是否正确。本发明通过ObiBert判断甲骨文碎片自动缀合的结果是否正确,以期结合甲骨文释文文本从计算机自动缀合的候选结果中筛选出概率最大的可选项,即提出一种判断甲骨文碎片自动缀合结果是否正确的方法,进一步提高甲骨文的应用。

主权项:1.一种基于ObiBert的甲骨文自动缀合校验方法,其特征在于,包括以下步骤:S1、收集大量甲骨文的释文文本,构建甲骨文Bert语料;S2、将甲骨文Bert语料中的甲骨文释文文本进行向量化,形成加和向量,得到ObiBert神经网络模型,具体包括Token嵌入、文本嵌入和位置嵌入混合加和;Token嵌入用于建立甲骨文的字向量,即将甲骨文释文句子中的每个甲骨字作为一个分割单元,然后将这些Token转换为固定维度的向量表示形式;用[CLS]符号标记Token的起始;用[SEP]符号标记Token的结束;考虑到甲骨文的特殊性,用[C]表示残缺或模糊不可识别的甲骨字;用[Un](其中n=1,2,3...)表示暂时还不认识的甲骨字;文本嵌入是针对甲骨文释文句子对的操作;具体实现是:用索引0和1构成向量来表示不同的甲骨文释文句子,即将0赋值给第一个句子的所有Token,从而构成第一个向量;将1赋值给第二个句子的所有Token,从而构成第二个向量;如果只有一个输入句子,则其文本嵌入为所有索引均为0的向量;位置嵌入是在甲骨文释文句子中各个位置上学习一个向量表示来处理文本序列信息;同一个甲骨字在不同的位置出现,用不同的向量表示;具体实现是:设计一个大小合适的查找表,其中第一行是第一个位置上的任意甲骨字的向量表示,第二行是第二个位置上的任意甲骨字的向量表示,依此类推;S3、然后将缀合后的甲骨片上的甲骨文释文文本,通过ObiBert的NSP模型来判断甲骨文碎片自动缀合的结果是否正确;判断方法包括以下步骤:提取自动缀合后的任意两片甲骨上前后衔接的释文得到两句话作为输入,NSP模型添加标记符号并将对应的输出作为释文文本的语义表示,同时对输入的两句话用一个分割符号进行分割,并分别对两句话附加两个不同的释文文本向量以作区分;如模型的输出为正确,则表示两片甲骨的缀合是正确的;若模型的输出为错误,则表示两片甲骨的缀合是错误的;S4、步骤S3中如果缀合的两片被判断为是正确的,则将其作为一个整体,再与其相邻的甲骨片进行组合,重复步骤S3直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结果;S5、步骤S3中如果缀合的两片被判断为是错误的,则保留其中任一片,另外选择一片与其相邻的甲骨片进行组合,重复步骤S3、S4,直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结果。

全文数据:

权利要求:

百度查询: 安阳师范学院 一种基于ObiBert的甲骨文自动缀合校验方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。