恭喜齐鲁工业大学(山东省科学院);山东省人工智能研究院李志慧获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜齐鲁工业大学(山东省科学院);山东省人工智能研究院申请的专利一种改进语言处理模型准确率的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119204232B 。
龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411720168.X,技术领域涉及:G06N5/04;该发明授权一种改进语言处理模型准确率的方法是由李志慧;苗继浦;石明;吴泞宇;贺劲;蔡立林;陈文娜设计研发完成,并于2024-11-28向国家知识产权局提交的专利申请。
本一种改进语言处理模型准确率的方法在说明书摘要公布了:本发明涉及自然语言处理技术领域,尤其是提供了一种改进语言处理模型准确率的方法。该方法包括获取对话数据集S,对数据集S进行数据预处理,得到预处理后的对话数据集I;构建LittleLlama网络结构,LittleLlama网络结构包括:输入层,Transformer编码器,输出层,将预处理后的对话数据集I中的第i条数Ii输入到LittleLlama网络结构,得到输出文本,该方法有效地处理了时间序列数据,在保持因果性的基础上,优化了模型的预测性能,避免了未来信息对当前预测的干扰,减少了预测误差,满足了实际应用中的需求。
本发明授权一种改进语言处理模型准确率的方法在权利要求书中公布了:1.一种改进语言处理模型准确率的方法,其特征在于,所述方法包括:步骤1、获取对话数据集,表示对话数据集S中的第条数据,,对数据集S进行数据预处理,得到预处理后的对话数据集;步骤2、构建LittleLlama网络结构,所述LittleLlama网络结构包括:输入层,Transformer编码器,输出层,将所述预处理后的对话数据集I中的第i条数输入到LittleLlama网络结构,得到输出文本;所述步骤2包括:步骤21、通过对话数据集S中的第i条数据输入到输入层,得到一个实数向量logger;其中输入层包括四个阶段,依次为:序列化,索引化,嵌入和旋转位置编码;步骤22、将实数向量logger经过Transformer编码器得到隐藏状态序列X;其中Transformer编码器包括第一阶段至第十八阶段,每个阶段均包括五个连续的部分,其依次为:融合均方根归一化层、因果注意力机制层、正则化dropout层、多层感知机层和正则化dropout层,每个阶段的组成顺序和参数完全一致,后一阶段的输入为前一阶段的输出;步骤23、将隐藏序列X输入到输出层,用于生成下一个词的概率分布;其中输出层包括融合均方根归一化层和全连接层;所述步骤21包括:序列化:当输入一段文字后需要将文本进行Tokenization,将其切分成单词或者字符,形成Token序列,在切分时,使用llama的分词器;索引化:在得到Token序列后,将文本映射成模型理解的输入形式,将文本序列转化为整数索引序列,其中索引为单词或者字符在语料库中的指数index;嵌入:当文本索引化之后,嵌入则继续将每个Token映射为一个实数向量,为嵌入向量EmbedingVector;旋转位置编码:对于Token序列中的每个位置,添加位置编码向量,以提供关于Token在序列中位置的信息;位置编码时为了区分不同位置的Token,为模型提供上下文关系的信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人齐鲁工业大学(山东省科学院);山东省人工智能研究院,其通讯地址为:250353 山东省济南市长清区西部新城大学科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。