首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于代码大模型的Rust语言文档测试自动生成方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明提出了一种基于代码大模型的Rust语言文档测试自动生成方法及装置,包括:收集Rust语言的代码‑注释‑文档测试数据集;搜索数据集中的函数在其所在项目中的函数用例;对函数用例进行聚类、合并重复的函数用例,按照其质量进行打分并排序,选出得分最高的典型函数用例;利用低秩适应技术对代码大模型进行微调,将代码大模型生成的文档测试和参考文档测试的相似度、以及可运行性作为评估指标,在测试集上评估代码大模型的生成效果。通过本发明生成的文档测试能够帮助代码库的使用者更好地理解代码的使用方法,填补了智能代码生成技术在Rust文档测试领域的空白。

主权项:1.一种基于代码大模型的Rust语言文档测试自动生成方法,其特征在于,包含以下步骤:(1)收集Rust语言的代码-注释-文档测试数据,对收集到的数据进行预处理,得到数据集;将数据集划分为训练集、验证集和测试集;(2)搜索数据集中的函数在其所在项目中的函数用例,将所述函数用例补充到数据集中;(3)对所述步骤(2)得到的函数用例进行聚类,合并重复的函数用例;对合并后的函数用例按照其质量进行打分并排序,选出得分最高的k个函数用例;包括:提取函数用例内部调用的外部API序列,作为该函数用例的聚类特征;计算函数用例之间的编辑距离,利用HDBSCAN算法对函数用例进行聚类,合并重复的函数用例,只保留每个类簇中间点的函数用例;利用评分方法计算剩余函数用例的质量分数,根据质量分数从高到低对函数用例进行排序,保留得分最高的k个函数用例;所述评分方法的表达式为: ;其中,表示函数用例的质量分数,表示函数用例中包含的实际代码行数,表示函数用例中调用的外部API数量,表示函数用例中包含的运算符数量;(4)构建代码大模型,利用所述数据集和低秩适应技术对代码大模型进行微调;将所述训练集的函数代码、函数注释以及k个函数用例,代入提示词模版,作为代码大模型的输入;利用低秩适应技术对代码大模型进行微调包括:对于代码大模型中的一个参数矩阵,创建两个低秩矩阵和,其中,表示分解后的矩阵阶数,表示原参数矩阵的行数,表示原参数矩阵的列数;将两个低秩矩阵注入到代码大模型中,并将代码大模型的参数替换为: ;其中,表示新的参数矩阵,表示参数矩阵的改变量,表示矩阵转置运算;(5)将所述测试集的函数代码、函数注释以及k个函数用例输入微调后的代码大模型,生成相应的文档测试;将微调后的代码大模型生成的文档测试和参考文档测试的相似度、以及可运行性作为评估指标,在测试集上评估微调后的代码大模型的生成效果;(6)提取需要生成文档测试的函数代码和函数注释,重复步骤(2)至步骤(4),通过微调后的代码大模型生成Rust语言文档测试。

全文数据:

权利要求:

百度查询: 浙江大学 基于代码大模型的Rust语言文档测试自动生成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。