买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学
摘要:本申请涉及大语言模型技术领域,特别涉及一种稀疏注意力的异构扩展规则自动分配方法、装置及设备,方法包括:评估每个注意力掩膜对大语言模型最终预测结果的影响;根据评估结果确定在大语言模型的不同输入序列长度上的准确性损失;基于目标函数搜索在大语言模型的不同输入序列长度上的帕累托前沿压缩方;其中,大语言模型的输入序列长度、准确性损失和密度约束为目标函数的输入,目标函数输出每个稀疏注意力分配的扩展规则集合,扩展规则集合中的每个扩展规则包括对应稀疏注意力头的超参数。由此,解决了相关技术中稀疏注意力方法在处理长序列和不同输入长度时存在一定的局限性,进而降低了大语言模型在各种序列长度下的整体性能和效率等问题。
主权项:1.一种稀疏注意力的异构扩展规则自动分配方法,其特征在于,包括以下步骤:评估每个注意力掩膜对大语言模型最终预测结果的影响;根据评估结果确定在大语言模型的不同输入序列长度上的准确性损失;基于目标函数搜索在大语言模型的不同输入序列长度上的帕累托前沿压缩方案,其中,所述大语言模型的输入序列长度、准确性损失和密度约束为所述目标函数的输入,所述目标函数输出为每个稀疏注意力头分配的扩展规则集合,所述扩展规则集合中的每个扩展规则包括对应稀疏注意力头的超参数。
全文数据:
权利要求:
百度查询: 清华大学 稀疏注意力的异构扩展规则自动分配方法、装置及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。