一种基于Bert语言模型的中文写作短语推荐方法

导航：龙图腾网> 最新专利技术> 一种基于Bert语言模型的中文写作短语推荐方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华东师范大学

摘要：本发明公开了一种基于Bert语言模型的中文写作短语推荐方法，该方法包括：获取网络上的现代文长短文语料；根据类别获取写作中常用的短语及成语；构造基于短语的Bert掩蔽文本预测任务数据；基于现有的中文预训练Bert模型进行基于表征的短语预测任务训练；将存在空缺等待填入短语的句子输入到短语预测模型中，得到模型推断的短语词性类别及对应类别下推荐出的短语结果。本发明与现有技术相比充分利用了语言模型的知识，基于上下文对待填写的短语进行推荐，同时结合文本的中文句法结构，以及前后文所蕴含的语义语境信息，构建短语的表征，提高短语预测模型的精度，推荐更加准确且合适的短语，对中文写作辅助训练和中文语言学习具有很高的价值。

主权项：1.一种基于Bert语言模型的中文写作短语推荐方法，其特征在于，该方法包括以下具体步骤：步骤1：获取网络上的现代文长短文语料在网络上爬取长短小说文本及新闻文本，对爬取到的文本进行分句，并进行基础的数据清洗，整理成为整洁规范的句子级别的文本数据；步骤2：获取常用的短语及成语同时在网络上搜集常用的中文短语及成语，按照词性类别进行爬取，保存并按照词性类别进行归档，得到常用短语集；步骤3：构建短语遮蔽文本预测任务的数据集将步骤2中得到的短语集与步骤1中处理得到的句子级别文本数据进行匹配，提取出包含短语集中短语的句子；基于匹配提取得到的句子，构建短语遮蔽文本预测任务的数据集，并按照8:1:1的比例，划分出训练集、验证集和测试集；步骤4：对短语字典和类别字典进行向量化对步骤2的短语集，构建一个向量化的字典；每个短语对应一个向量化的表征；对步骤2的短语集中的每一个类别，构建一个向量化的字典，每个类别同时对应一个向量化的表征，对所述两个向量化字典进行随机初始化；步骤5：训练基于Bert的遮蔽短语预测模型构建一个基于Bert的遮蔽短语预测模型，使用步骤3中构建的训练集对模型进行训练，通过Adam优化器反向传播更新模型的参数,每次更新参数后计算模型在步骤3的验证集上计算模型的预测损失，重复上述过程直到验证集上模型的预测损失不再下降，保存此时的模型；步骤6：使用短语预测模型对用户进行短语推荐在步骤5保存的模型中，增加接受用户输入和格式化输出模型预测结果的功能，得到模型预测的类别概率和概率值前k的类别下的每个短语的预测概率，并按照短语预测概率值排序，取前o个短语作为该类别下的预测短语推荐给用户；其中：步骤5所述构建一个基于Bert的遮蔽短语预测模型，其模型包含：Bert文本编码器，步骤3中构建的短语向量化字典和类别向量化字典，基于上下文的信息整合单元，以及基于前向连接网络的类别分类器和候选短语分类器；具体按照如下步骤构建：6-1：模型中的Bert文本编码器由基于自注意力机制的Transformer序列编码器Encoder构成，Encoder包括Multi-HeadAttention模块和Feed-ForwardNetworks模块；Multi-HeadAttention模块：设输入为X＝x1,x2,…,xn，输出用MultiHeadX表示，公式如下： MultiHeadX＝Concathead1,head2,…,headhWo 为权重矩阵，d,o#-.,dX，分别为输入向量维度和子空间维度；Attention，表示self-Attention机制，headi表示第i个子空间，Concat表示合并操作；所述self-Attention机制，公式如下：其中，d8为输入维度，为尺度因子，Q,K,V分别Attention机制的query、key和value，在Multi-HeadAttention模块中，Q,K,V的值与相同；Feed-ForwardNetworks模块：该模块的输入为Multi-HeadAttention部分的输出加上输入原始输入X，设为x，输出为FFNx，公式如下：x＝NultiHeadX+XFFNx＝max0,xW1+b1W2+b2上述Wi,bii＝1,2分别表示第i层神经网络权重项和偏移项；基于上述Encoder构建层级神经网络，层级指词级别和句级别，构建步骤为：设第i句的词组成的序列长度为n，用Xi＝[xi1,xi2,…,xin]表示，将X作为上述的Encoder的输入，得到Xi′＝[xi1′,xi2′,…,xin′]；使用softAttention对X′进行降维，得到句向量si，公式如下：uij＝tanhWwxij′+bw 其中，WK，bK为权重矩阵和偏移项，tanh为激活函数，uij为输xij′经过一层神经网络的输出，uw为权重向量,αij为xij′的权重，xij′为Xi′中第j个向量,uijT为uij转置；6-2：Bert模型在句子开始和末尾分别加上“[CLS]”以及“[SEP]”字符，此时输入表征序列{xCLS,x0,x1,…,xT,xSEP}经上述Bert模型后获得与语句长度相同的隐层状态序列{hCLS,h0,h1,…,hn-1,hSEP}，对应“[MASK]”位置的隐层状态序列为hm；6-3：信息整合单元为一个前向传播网络，对于“[MASK]”位置的隐层状态序列，构建信息整合单元的输入hi，输入信息整合单元后得到对应的输出ho： FFNaggrhi＝max0,hiW1+b1W2+b2hi＝FFNaggrhi上述Wi,bii＝1,2表示信息整合单元FFNaggr中的权重项和偏移项；6-4：针对类别信息整合单元的输出ho，将其输入到类别分类器中，取得类别概率最大的类别对应的向量化表示：FFNclsho＝max0,hoW1+b1W2+b2Ec＝argmaxsoftmaxFFNclsho上述Wi,bii＝1,2表示类别分类器FFNcls中的权重项和偏移项；6-5：基于6-4得到的最大判断概率得到的类别表征，将其与原始信息整合单元的输出进行拼接，输入到短语分类器中，与候选集G中的每个短语向量化表征进行点积，并概率化每个候选输入短语的概率值： FFNwhc＝max0,hvW1+b1W2+b2 其中，Wi,bii＝1,2表示短语分类器FFNw中的权重项和偏移项,v表示候选集G中的某一个短语；步骤6中所述增加接受用户输入和格式化输出模型预测结果的功能，具体实现方式如下：7-1：模型将输入的语句中的“*”转换为“[MASK]”，输入到短语预测模型中；7-2：模型对输入的语句进行计算处理，依次预测对应位置的类别和概率，根据空缺位置词性类别的概率值排序，选取排序前k的类别进行引导式的短语预测，分别预测对应类别分布下的短语，并按短语预测概率值排序，取排序前o的短语作为该类别下推荐的短语；7-3：模型将7-2中的类别概率及该类别下对应的短语，按照概率值排序，输出给用户作为模型对于该句输入的空缺位置的短语推荐结果。

全文数据：

权利要求：

百度查询：华东师范大学一种基于Bert语言模型的中文写作短语推荐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种玻璃瓶裂纹检测装置

下一篇：路径规划方法、系统、设备及计算机可读存储介质

相关技术

一种玻璃瓶裂纹检测装置

路径规划方法、系统、设备及计算机可读存储介质

马达

一种塑料导气管成型设备

一种用于多弯曲半径的数控弯曲连接装置及使用方法

一种基于机场场面空地互联的虚拟交通灯系统

电信网元实时处理方法、装置、设备、介质及程序产品

印制电路板、器件焊接检测方法、装置及电子设备

一种矿山采空区顶板离层测量装置及其测量方法

超临界CO₂腐蚀测试系统的样品加载装置

一种低硬度彩色天然橡胶材料及其制备方法

一种铸造用固化剂及其制备方法和使用方法

中文相关技术

一种中文长文本特征提取方法及装置_国家电网有限公司大数据中心_202411089604.8

一种扫描跟踪中文图形化快速编程自动化焊接系统_山东万德自动化科技有限公司_202411294138.7

一种基于知识蒸馏技术的中文事件抽取方法_郑州大学_202410979697.5

基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置_浙江工业大学_202410567560.9

基于大型语言模型的中文小样本实体关系联合抽取方法及系统_西安交通大学_202410951777.X

一种基于中文语义增强的法律文书实体抽取方法_上海交通大学_202410987528.6

面向中文医疗文本的异常检测方法、装置、设备和介质_香港中文大学(深圳)_202411031446.0

一种中文资讯热点事件生成系统_车智互联(北京)科技有限公司_202411219744.2

中文地址加密方法、装置、设备及存储介质_深圳市智慧城市科技发展集团有限公司_202411390819.3

基于改进YOLOv5的中文标注手势识别方法与系统_扬州大学_202111551115.6

写作相关技术

一种基于多角色智能体的智慧写作方法及系统_北京方寸无忧科技发展有限公司_202411404816.0

一种外语写作自动纠错方法及系统_广东海洋大学_202411259177.3

文档写作智能召回方法、装置及文档生成方法、装置_北京深度制耀科技有限公司_202410619691.7

写作练习方法、装置、设备及存储介质_国家开放大学_202410592495.5

一种基于Bert语言模型的中文写作短语推荐方法_华东师范大学_202210565638.4

一种基于记忆自然语言大模型的长文本写作方法和装置_浙江大学_202410341701.5

基于认知诊断的写作大模型能力评测方法_中国科学技术大学_202410755434.6

写作提示方法、大语言模型的微调方法和相关设备_深圳市三六零智慧生活科技有限公司_202410612313.6

智能写作方法及装置、电子设备、介质及系统_第四范式(北京)技术有限公司_202311816396.2

一种引导用户写作的方法和装置_北京字节跳动网络技术有限公司_202010157471.9

模型相关技术

数字道路模型构建方法_太原林捷电子科技有限公司_202411058970.7

模型风力机装置_中国长江三峡集团有限公司_202420897609.2

用于数字孪生车间模型的设备模型位置调整方法及系统_优铸科技(北京)有限公司_202410216272.9

一种大语言模型驱动GPT小模型的智能文本多标签方法_中电万维信息技术有限责任公司_202410774674.0

模态分类模型的训练、应用方法及模型、设备、介质_北京大学深圳医院(北京大学深圳临床医学院)_202411217864.9

一种焊片偏移量检测模型构建方法及模型_沈阳塞克西机电设备有限公司_202411033085.3

一种气道信息检测的模型、模型训练方法及其应用方法_中国人民解放军海军军医大学_202410806053.6

一种基于AI大模型的问答模型训练方法_中国建筑国际集团有限公司_202410974957.X

基于大模型的3D虚拟模型控制方法、装置、设备及介质_北京格如灵科技有限公司_202410925121.0

道路的长期共享世界模型_北美日产公司_202380030850.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Bert语言模型的中文写作短语推荐方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务