Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本发明公开一种基于组合式奖励模型的强化学习算法LAPO。针对现有奖励模型多从单一维度进行评估、难以同时兼顾安全性与生成质量的问题,提出了组合式奖励模型,其融合了毒性判别与文本质量判别两类评估结果。此外,通过引入面向多轮对话场景的毒性判别策略...
  • 本发明公开了一种基于状态机转移对DT进行记忆回溯的基站节能决策方法,设计具备回溯功能的状态机记忆模块用于Decision Transformer,进行基站节能的长期稳定决策,包括:记录过去的状态、动作、环境奖励等信息,按特定顺序整理为成时序...
  • 本发明提供了一种面向异构智能体的相关性剪枝强化学习协同训练方法,以回合奖励与交互数据为依据,执行智能体间相关性评估,生成通信保留或剪除的掩码及协同或对抗方向标记。在此基础上对跨体信息进行选择性传递,并对强相关智能体的收益进行有符号加权,用于...
  • 本说明书实施例提供了基于强化学习的模型训练方法及装置。该方法包括:获取用户指令和设备状态,用户指令用于指示设备执行目标任务,目标任务包括若干个操作步骤,设备状态为设备的当前工作状态;将用户指令和设备状态输入策略模型,由策略模型生成多个输出结...
  • 本发明提供了一种面向强化学习的目标驱动生成奖励系统及方法,包括:步骤S1,基于用户提供的任务描述,通过预训练的视频生成模型生成目标条件视频;步骤S2,计算潜在空间中的智能体观测序列与目标条件视频的相关性以得到视频级奖励信号;步骤S3,从目标...
  • 本公开是一种利用代码审查模型作为奖励模型的强化学习方法,该方法包括:将含有代码及对应的人工审查结果标签的数据作为训练样本,进行监督学习训练得到代码审查模型,所述代码审查模型能够接收代码并对该代码进行评估,然后输出评估结果;在强化学习框架下,...
  • 本申请提供了一种用于大语言模型的强化学习训练框架及方法,基于模块化解耦架构,涉及大语言模型处理技术领域,包括通过数据加载模块获取训练任务;通过推理采样执行模块使用大语言模型对所述训练任务进行推理,生成轨迹数据;通过轨迹管理模块将若干个符合预...
  • 本发明提供了一种针对多智能体的对抗式鲁棒训练策略方法,涉及人工智能强化学习技术领域,对于每个训练步,引入对比学习方式,加入新的损失来辅助特征提取;同时,在环境发生扰动时,利用该对比方式来量化观测的扰动和状态转移的扰动;利用量化的扰动制定最优...
  • 本申请公开了一种网络参数裁剪的方法、装置、设备、存储介质及程序产品,涉及模型压缩技术领域。该方法获取神经网络的每层的参数矩阵、参数权重信息和目标裁剪数量;对参数矩阵进行分块处理得到多个参数块;基于不同裁剪率对参数矩阵进行裁剪得到多个裁剪后的...
  • 本发明涉及水声目标识别技术领域,尤其涉及一种基于频带对比动态低秩蒸馏的水声目标识别模型压缩方法,该方法首先微调Transformer架构的教师模型;然后通过自适应低秩动态压缩教师模块,动态确定各层最优秩并进行低秩重构,生成轻量化学生模型;再...
  • 本发明公开了基于路径协同图增强的谱图卷积网络异构图表示学习方法,涉及图神经网络技术领域,包括:获取待处理异构图数据,利用类型感知的线性变换将不同类型的节点特征投影到统一的潜在特征空间;计算结构先验权重;构建路径协同图,通过图注意力网络学习路...
  • 本公开实施例公开了一种图神经网络模型的训练方法、装置、设备、介质及产品。其中,方法包括:获取目标区域内的用户终端的采样点数据;其中,采样点数据用于指示用户终端位置信息;基于密度对采样点数据进行聚类,得到聚类信息;其中,聚类信息用于指示各聚类...
  • 本发明提供一种基于闭环动态反馈的自适应模型优化方法及系统,包括:在模型训练过程中,实时获取训练状态观测向量;将训练状态观测向量输入至动态损失权重控制器,动态损失权重控制器根据训练状态观测向量输出动态调整的损失权重,并利用损失权重计算当前的总...
  • 本申请提供了一种大语言模型训练方法、智能对话方法及电子设备,涉及人工智能技术领域,能够减少模型推理时长,有利于提高用户与设备智能交互的效率。该大语言模型训练方法包括:获取交互业务对应的多条历史业务数据;历史业务数据包括历史用户输入信息及对应...
  • 本发明公开了一种基于WSe2电各向异性的人工神经元,包括,基板;WSe2功能层,形成于所述基板上;多对电极;设置在所述WSe2功能层上;所述多对电极呈预设角度间隔布置,形成多端场效应晶体管结构;所述WSe2功能层通过本征屏蔽层诱导的各向异性...
  • 本申请公开了一种AI芯片的数据处理方法、装置、设备及介质,涉及人工智能技术领域,包括:获取卷积神经网络模型的输入特征图数据;以多个基础维度和若干扩展维度作为并行维度对所述输入特征图数据执行卷积操作,以生成输出特征图数据,所述扩展维度为所述基...
  • 一种神经网络处理器利用被配置成以锁步形式操作的多个处理元件(PE)处理神经网络的层,并且具有相同数量的存储器区域。在锁步周期期间,在每个存储器区域内,第一组区域存储器被配置成存储神经网络层输入数据,第二组区域存储器被配置成存储神经网络层权重...
  • 本发明公开了一种基于对称稳态忆阻神经元电路实现对称神经形态行为的方法。通过一种具有对称稳态的忆阻器构建了对称稳态忆阻神经元电路,在双极性电压的驱动下,可以使得忆阻器涌现双向、双相等一系列对称神经形态行为,这与生物神经元在复杂的电生理活动下产...
  • 一种神经网络架构的零成本代理评估方法及系统,属于神经网络架构搜索与深度学习领域,基于信息量传递逐级递减规律,定义路径起点包括输入节点及直接相连分支节点、终点为输出节点;对路径进行指数递减量化编码,同时量化网络中各操作的信息利用率;基于路径信...
  • 本发明涉及自适应混合精度量化方法、装置、设备及介质,将通过相邻层余弦相似度差值与每层的敏感度权重的乘积进行综合排序,以确保能够精准识别出那些自身易受量化影响且对最终精度至关重要的瓶颈层,从而实现对保护目标的精准定位,并引入迭代优化循环,通过...
技术分类