北京理工大学曾群鸿获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于深度学习的代码提交自动分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117034075B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310818056.7,技术领域涉及:G06F18/24;该发明授权一种基于深度学习的代码提交自动分类方法是由曾群鸿;张宇霞;刘辉设计研发完成,并于2023-07-05向国家知识产权局提交的专利申请。
本一种基于深度学习的代码提交自动分类方法在说明书摘要公布了:本发明涉及一种基于深度学习方法的代码提交自动分类方法,属于自动化软件工程技术领域。该方法使用双向的Transformer编码器表示从代码提交的变更描述中提取文本特征,并从代码提交的代码变更中提取其修改模块的细粒度代码行变化特征。通过多模态适应门机制等方法将文本特征与代码特征进行融合,对融合后的代码特征使用多层感知机进行分类。本发明在相同数据集下,分类性能准确率和宏观均值F1均高于现有方法;能够跨不同编程语言工作,也可以在复杂的多语言项目中工作。
本发明授权一种基于深度学习的代码提交自动分类方法在权利要求书中公布了:1.一种基于深度学习的代码提交自动分类方法,其特征包括: 步骤1、数据收集; 步骤1.1:人工标注微调数据集; 步骤1.2:自动生成预训练数据集; 步骤2、特征提取; 对步骤1.1和步骤1.2的代码提交数据集进行特征提取,所提取的特征将被用于步骤3的特征融合中; 步骤2.1:代码提交的文本特征提取; 使用基于Transformer的双向编码表示BERT对代码提交变更描述的文本进行特征提取;首先将变更描述的文本使用分词器划分成一系列的单词,然后将这些单词映射成一个向量,将这些向量输入到BERT中,最后选择BERT输出到对应[cls]单词的向量,将这个向量作为整段变更描述文本的特征向量; 步骤2.2:代码提交的代码特征提取; 将代码提交中所更改的文件划分为代码文件类别、测试文件类别和文档文件类别;对于代码文件类别和测试文件类别,因为其中的内容属于编程语言代码,而编程语言代码中的每一行有不同的功能,因此将代码文件的代码行分为三种类别,即代码行,注释行和空行;代码行表示了代码本身的功能,注释行提高了代码行的可读性,而空行是一种特殊的注释行,本身并不提供信息,而是用于格式化代码; 对于代码文件类别和测试文件类别,分别统计代码提交记录中所有属于代码文件类别和测试文件类别的更改中,代码行增加和减少的总量,注释行增减和减少的总量,空行增加和减少的总量,并分别计算代码行增减减少的差值,注释行增加减少的差值,空行增加减少的差值,让模型可容易学到代码提交所涉及的两个版本之间的差异问题;对于文档文件类别,由于文档本身只是文本,因此只统计代码提交中所有涉及文档文件类别的文件的行数增加总数,行数减少总数,以及行数增加减少的差值; 步骤3、特征融合 将步骤2.1得到的文本特征和步骤2.2得到的代码特征进行融合,从而让代码提交分类器能够学习到代码提交描述和代码变更的特征信息; 步骤4、模型训练 步骤4.1、模型预训练 将模型在步骤1.2自动生成的大规模数据集上进行预训练,并将预训练的模型参数保存; 步骤4.2:模型微调; 将预训练模型的参数用于模型的初始化,在步骤1.1人工标注的数据集上进行微调; 至此,经过步骤1到步骤4,完成了一种基于深度学习的代码提交自动分类方法。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励