Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜山东青鸟工业互联网有限公司许浩获国家专利权

恭喜山东青鸟工业互联网有限公司许浩获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜山东青鸟工业互联网有限公司申请的专利一种基于语言大模型的数据训练样本构造方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119066427B

龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411238393.X,技术领域涉及:G06F18/214;该发明授权一种基于语言大模型的数据训练样本构造方法是由许浩;初桂民;朱心华;黄伟凤;刘健设计研发完成,并于2024-09-05向国家知识产权局提交的专利申请。

一种基于语言大模型的数据训练样本构造方法在说明书摘要公布了:本发明公开了一种基于语言大模型的数据训练样本构造方法,涉及数据训练样本构造的技术领域,包括采集用于训练的原始数据样本,并进行清洗操作;利用预训练语言模型对所述第一数据样本进行分析处理,生成新的数据样本,调整所述预训练语言模型;进行关键模式识别,提取关键特征,对新生成的数据样本进行评估和调优。本发明通过GPT‑4预训练语言模型对原始数据进行分析,识别关键模式,并根据预定义的规则和参数生成新的数据样本,自动化地生成支持各种机器学习任务的高质量的训练样本,特别是在自然语言处理领域,显著提高数据样本的多样性和覆盖面,同时保持样本的质量和提升下游任务的模型性能。

本发明授权一种基于语言大模型的数据训练样本构造方法在权利要求书中公布了:1.一种基于语言大模型的数据训练样本构造方法,其特征在于,包括以下步骤:S1:采集用于训练的原始数据样本,将所述原始数据样本定义为第一数据样本,将所述第一数据样本导入到计算环境中,对所述第一数据样本进行清洗操作,通过可视化统计的方法分析数据的特征、分布和关联关系;S2:选取预训练语言模型,利用所述预训练语言模型对所述第一数据样本进行分析处理,生成新的数据样本,定义为第二数据样本,根据所述第二数据样本调整所述预训练语言模型;S3:利用调整后的预训练语言模型对所述第二数据样本进行关键模式识别,得到所述第二数据样本的关键模式、语言结构和文本模式,提取所述关键模式、语言结构和文本模式的关键特征,生成新的数据样本,定义为第三数据样本,对所述第三数据样本评估和调优;S4:使用调整后的所述预训练语言模型随机生成数据,将随机生成的数据与第三数据样本拼接,得到组合数据集,定义为第四数据样本,通过数据增强技术增加所述第四数据样本的数量和多样性,得到最终的数据训练样本;步骤S2包括:选取GPT-4预训练语言模型为预训练语言模型,利用所述预训练语言模型理解所述第一数据样本的文本含义,将长文本切割成适当长度的段落或句子,并选择所述段落或句子的适当长度的上下文窗口作为新的数据样本,定义为第二数据样本;将所述第二数据样本输入所述预训练语言模型中,使用HuggingFaceTransformers库加载所述GPT-4预训练语言模型,将所述第二数据样本输入加载后的所述预训练语言模型中,定义训练的超参数为学习率,将预训练的GPT-4预训练语言模型与GRU层结合,构建结合GRU层的GPT-4预训练语言模型,多次迭代训练所述结合GRU层的GPT-4预训练语言模型,每次迭代通过自适应学习率算法Adagrad更新超参数,选取所述超参数最高的结合GRU层的GPT-4预训练语言模型作为新的预训练语言模型;将预训练的GPT-4预训练语言模型与GRU门控层结合,构建一个能够深层理解自然语言的语言模型包括:在GPT-4预训练语言模型的输出端添加一个GRU层,从GPT-4预训练语言模型的输出中提取最后一层的隐藏状态,将所述隐藏状态作为GRU层的输入依次通过重置门和更新门,得到不同时刻的输出,将不同时刻的所述输出投入到Sigmoid激活函数中得到激活表示,得到最终输出状态,所述最终输出状态为所述隐藏状态的关键信息,所述关键信息捕捉了所述第二数据样本的深层意义,所述深层意义包括但不限于情感侧重和正反面形象,所述GRU层通过反向传播算法优化内部参数,得到结合GRU层的GPT-4预训练语言模型;所述自适应学习率算法Adagrad自适应调整每个参数的学习率,通过对梯度进行平方累积来缩放学习率。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东青鸟工业互联网有限公司,其通讯地址为:250000 山东省济南市历下区山左路大都会万科中心写字楼3007;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。