买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广西民族大学
摘要:本发明提供一种基于现代汉语语法经济安全领域训练的语言模型构建方法,包括:对获取的原始数据进行清洗,加入经济安全领域的专有名词词典;从整体语料中随机抽取15%的词语进行MASK;组织上下文训练语料,格式为语料中每两个连续的句子,定义起始符,句子中间用分隔符隔开,以此定义为正样本,以第二个句子为预料中随机抽取到的定义为负样本;随机初始化词嵌入矩阵,获取静态的词向量;定义句子编码器层;定义位置编码器层;采用双向的Transformer模型作为特征提取器,联系了上下文语义关系捕获句子中潜在的隐语义表征;在Attention注意力机制中加入了MASK遮蔽功能;预训练任务设计;模型训练;模型评估。
主权项:1.基于现代汉语语法经济安全领域训练的语言模型构建方法,其特征在于,包括以下步骤:步骤一:数据获取;选择公开网站作为数据源获取数据;步骤二:数据预处理;2.1对获取的原始数据进行清洗,去除无用信息,保留有价值的文本内容;2.2加入经侦领域的专有名词词典;2.3从整体语料中随机抽取15%的词语进行MASK;2.4组织上下文训练语料,格式为语料中每两个连续的sentence,定义起始符,句子中间用分隔符隔开,以此定义为正样本,以第二个sentence为预料中随机抽取到的定义为负样本;步骤三:模型搭建:3.1随机初始化词嵌入矩阵,获取静态的词向量;3.2定义句子编码器层;3.3定义位置编码器层;3.4采用双向的Transformer模型作为特征提取器,联系了上下文语义关系补货句子中潜在的隐语义表征;3.5在Attention注意力机制中加入了MASK遮蔽功能,即:不让模型在自回归预测时提前看到了真实答案;步骤四:预训练任务设计;4.1MLM,,在Encoder的输出上添加一个分类层,用嵌入矩阵乘以输出向量,将其转换为词汇的维度,用Softmax计算mask中每个单词的概率,对比原来的label,计算损失;4.2NSP,用一个简单的分类层将[CLS]标记的输出变换为2×1形状的向量,用Softmax计算IsNextSequence的概率;步骤五:模型训练;使用4个G的语料,在2张3090显卡的GPU服务器训练5天;步骤六:模型评估;在模型训练完成后,通过评估指标和任务来测试模型的性能,确保模型达到预期的效果。
全文数据:
权利要求:
百度查询: 广西民族大学 基于现代汉语语法经济安全领域训练的语言模型构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。