恭喜内蒙古工业大学苏依拉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜内蒙古工业大学申请的专利一种融合词根词缀和音标的蒙古语预训练情感分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114742046B 。
龙图腾网通过国家知识产权局官网在2025-05-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210252395.9,技术领域涉及:G06F40/284;该发明授权一种融合词根词缀和音标的蒙古语预训练情感分析方法是由苏依拉;杨蕾;杨佩恒;朱苏东;司赟;邱占杰;仁庆道尔吉;吉亚图设计研发完成,并于2022-03-15向国家知识产权局提交的专利申请。
本一种融合词根词缀和音标的蒙古语预训练情感分析方法在说明书摘要公布了:一种融合词根词缀和音标的蒙古语预训练情感分析方法,对蒙古语语料进行预处理;构建蒙古语BERT预训练模型,其中,在其嵌入层构造词嵌入、词根嵌入、词缀嵌入和音标嵌入;将所述嵌入进行拼接后得到融合嵌入,然后再将融合嵌入与位置嵌入相加,形成模型输入;在蒙古语BERT预训练模型中,将对比学习和MLM的融合任务进行预训练;对蒙古语情感语料进行预处理;用训练好的融合词根词缀和音标的蒙古语BERT预训练模型对蒙古语情感语料进行情感分析。本发明采用融合词根词缀和音标对BERT模型进行预训练,另外,将对比学习的方法融入到MLM任务中,通过对比学习来实现数据增强,从而提高模型的准确率和情感分析的准确性。
本发明授权一种融合词根词缀和音标的蒙古语预训练情感分析方法在权利要求书中公布了:1.一种融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,包括如下步骤:步骤1,对蒙古语语料进行预处理;步骤2,构建蒙古语BERT预训练模型,其中,在其嵌入层构造词嵌入、词根嵌入、词缀嵌入和音标嵌入;将所述嵌入进行拼接后得到融合嵌入,然后再将融合嵌入与位置嵌入相加,形成模型输入;步骤3,在所述蒙古语BERT预训练模型中,将对比学习和MLM的融合任务进行预训练;步骤4,对蒙古语情感语料进行预处理;步骤5,用训练好的融合词根词缀和音标的蒙古语BERT预训练模型对蒙古语情感语料进行情感分析;其中,所述步骤3,利用随机丢弃掩码的方法进行对比学习中正样本的构造,将同一个样本即由嵌入层得到的输入向量分两次输入到所述蒙古语BERT预训练模型中,通过随机丢弃掩码得到两个不同的向量si和si′,将si和si′作为正样本对,随机采样一个batch中的另一个输入作为负样本sj,则对比学习的损失函数Li为: 其中ω为超参数,n为一个batch的大小;cossi,si′为向量si和向量si′的余弦相似性,其公式为: cossi,sj为向量si和向量sj的余弦相似性,其公式为: MLM预训练任务采用随机遮蔽一部分token,在随机掩码的过程中有第一比例的词被替换为其他词,第二比例的词不变,剩余的词被替换为掩码[MASK],MLM预训练任务的损失函数为: 其中θ为蒙古语BERT预训练模型中Encoder部分的参数,θ′为MLM预训练任务中在Encoder上所接输出层中的参数,M为被掩码的词集合,mk为被掩码的词,p为样本k的预测概率,|V|为词典大小;则,融合对比学习的MLM预训练任务的损失函数为:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人内蒙古工业大学,其通讯地址为:010080 内蒙古自治区呼和浩特市土默特左旗内蒙古工业大学金川校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。