恭喜北京中微盛鼎科技有限公司刘闯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京中微盛鼎科技有限公司申请的专利一种基于专家知识库的特定领域模型训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119691178B 。
龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510192148.8,技术领域涉及:G06F16/35;该发明授权一种基于专家知识库的特定领域模型训练方法是由刘闯设计研发完成,并于2025-02-21向国家知识产权局提交的专利申请。
本一种基于专家知识库的特定领域模型训练方法在说明书摘要公布了:本发明涉及文本数据处理技术领域,具体涉及一种基于专家知识库的特定领域模型训练方法,该方法包括:对获取的初始通用知识库和初始专家知识库中的每个文本中的每个句子进行分词处理;确定每两个文本之间的目标相似度;对所有文本进行聚类,并对初始专家知识库和初始通用知识库分别进行扩充和删减;确定初始专家知识库中每个目标分词对应的目标专业贡献程度和每个句子对应的目标学习率;将初始专家知识库中各个句子对应在LoRA模型中的缩放因子更新为其对应的目标学习率,并通过LoRA模型,对语言模型进行微调,得到训练完成的语言模型。本发明通过对知识库中的文本数据进行处理,提高了对特定领域下的语言模型进行训练时的合理性。
本发明授权一种基于专家知识库的特定领域模型训练方法在权利要求书中公布了:1.一种基于专家知识库的特定领域模型训练方法,其特征在于,包括以下步骤:获取初始通用知识库和初始专家知识库,并对初始通用知识库和初始专家知识库中的每个文本中的每个句子进行分词处理,得到目标分词,获取每个目标分词对应的词向量;根据每两个文本中的目标分词对应的词向量之间的相似情况,确定每两个文本之间的目标相似度;根据文本之间的目标相似度,对所有文本进行聚类,得到目标簇,并基于初始专家知识库中的文本所属目标簇,对初始专家知识库和初始通用知识库分别进行扩充和删减,得到扩充专家知识库和删减通用知识库;根据初始专家知识库中每个目标分词分别在扩充专家知识库和删减通用知识库中的分布,确定初始专家知识库中每个目标分词对应的目标专业贡献程度;根据初始专家知识库中每个句子及其相邻句子中的目标分词对应的目标专业贡献程度,确定初始专家知识库中每个句子对应的目标学习率;将初始专家知识库中各个句子对应在LoRA模型中的缩放因子更新为其对应的目标学习率,并通过LoRA模型,对语言模型进行微调,得到训练完成的语言模型;所述根据初始专家知识库中每个目标分词分别在扩充专家知识库和删减通用知识库中的分布,确定初始专家知识库中每个目标分词对应的目标专业贡献程度,包括:采用上下文无关文法CFG,获取每个句子对应的结构树;将所述初始专家知识库中任意一个目标分词,确定为标准分词;从所述扩充专家知识库中筛选出与所述标准分词相同的目标分词,构成所述标准分词对应的专业相似分词集合;从所述删减通用知识库中筛选出与所述标准分词相同的目标分词,构成所述标准分词对应的通用相似分词集合;根据所述标准分词所属句子对应的结构树与其对应的专业相似分词集合和通用相似分词集合中的目标分词所属句子对应的结构树之间的树编辑距离,确定所述标准分词对应的目标专业贡献程度;所述根据初始专家知识库中每个句子及其相邻句子中的目标分词对应的目标专业贡献程度,确定初始专家知识库中每个句子对应的目标学习率,包括:根据每个句子中所有目标分词对应的目标专业贡献程度,确定每个句子对应的整体专业贡献程度,其中,目标专业贡献程度与整体专业贡献程度呈正相关关系;将所述初始专家知识库中任意一个句子,确定为标记句子,并从所述标记句子所属文本中筛选出离所述标记句子最近的预设数目个句子,构成所述标记句子对应的参考句子集合;根据所述标记句子对应的参考句子集合中所有句子对应的整体专业贡献程度,确定所述标记句子对应的目标学习率,其中,整体专业贡献程度与目标学习率呈正相关关系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中微盛鼎科技有限公司,其通讯地址为:100044 北京市海淀区北三环西路48号2号楼5层6A;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。