买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及一种基于代码大模型的自动代码审查方法及系统,该方法包括历史代码库;根据下游任务的需要对收集到的数据进行预处理;将预处理后的代码数据集进行embedding入库;采用预处理后的代码数据集对代码大模型进行指令微调和参数高效微调获得能够进行代码审查的训练后模型;获取开发者提交到代码仓库的代码,与对应的上个版本的代码进行比较得到codediff,再与上下文结合得到待审代码;将待审代码输入到训练后模型中得到输出审查评论;将待审代码和审查评论再次输入到训练后模型中,最后输出修订后的代码。修订后的代码合并到仓库的主分支。本发明方法可以显著减少代码审查过程中人力资源的消耗,提高代码质量和开发效率。
主权项:1.一种基于代码大模型的自动代码审查方法,其特征在于,包括如下步骤:S1:收集开源项目、公开数据集和内部开发项目的历史代码库作为历史数据,包括代码本身、修复历史、代码审查记录;S2:根据下游任务的需要对S1收集到的历史数据进行预处理,为后面微调模型和构建向量数据库做准备;S3:将所述预处理后的代码数据集进行embedding入库;S4:采用所述预处理后的代码数据集对代码大模型进行指令微调和参数高效微调,获得能够进行代码审查的训练后模型;S5:获取开发者提交到代码仓库的代码,与对应的上个版本的代码进行比较得到codediff,然后获取codediff所在的函数再使用抽象语法树提取这些函数的所有代码作为待审代码;S6:将获取到的待审代码输入到所述训练后模型中,训练后模型会结合检索增强生成RAG技术对待审代码进行审查,然后输出审查评论;S7:将待审代码和S6得到的审查评论再次输入到所述训练后模型中,训练后模型会根据审查评论修订待审代码,最后输出修订后的代码;S8:将修订后的代码合并到仓库的主分支。
全文数据:
权利要求:
百度查询: 重庆大学 一种基于代码大模型的自动代码审查方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。