Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多特征融合的恶意代码作者识别与代码侵权检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:四川大学;王鹏超

摘要:本发明公开了一种保护代码著作权、溯源恶意代码的作者的方法。在软件市场蓬勃发展的当下,不法分子编写恶意代码并传播将会对信息安全造成严重威胁。为此,本小组在深思熟虑后,决定采用构建多模态特征融合的方式来溯源代码作者,思路如下:1数据集的建立:对互联网上的代码进行爬取及处理;2多模态代码分析模型:通过子段哈希值、tf‑idf、语法树、树型LSTM等技术提取代码的多项特征,最后将其池化融合;3数据库查询算法:构建数据库,并选取ANN搜索算法进行检索,我们提出了一种高效动态维护IVF‑PQ的聚类的算法以及另一种算法。我们在研究过程中以实际需求为导向,相关知识成果产出将在多个实际场景发挥重要作用。

主权项:1.一种基于多特征融合的恶意代码作者识别与代码侵权检测方法,其特征在于,包括以下步骤:S1:数据收集、处理与标注:采用Python爬虫技术,通过构建代理IP池、利用Selenium模拟真实浏览器等方式绕过Codeforces的反爬机制,同时在AtCoder和牛客网上模拟用户登录获取API接口权限,从而从三个平台抓取并整合编译通过的活跃用户代码提交记录作为实验数据集。S2:代码特征提取与特征融合:针对代码作者识别问题,我们系统地从用词特征、排版特征和句法特征三个维度进行深入分析与抽取。在用词特征提取过程中,我们首先依照各类编程规范进行分词处理,包括但不限于基于驼峰命名法、蛇形命名法等原则划分标识符,并在必要时采用固定长度子串提取以兼顾词汇统计和排版偏好,如空格、换行符使用习惯;同时,我们对关键词频次进行统计,并采用tf-idf算法计算稀有标识符命名的重要性,以及考虑注释的使用频率。在排版特征提取上,我们通过识别和区分代码中的复用模块即“轮子”和独特编写部分,利用哈希值比较复用模块的相似性,同时对独特编写部分进行行代码长度统计分析,并通过检测绝对与相对缩进规律探寻作者一致的缩进风格以及空行使用习惯。至于句法特征,我们借助抽象语法树AST构建和结构递归神经网络RecursiveNeuralNetwork,RvNN技术,特别是经过改进的长短期记忆网络LSTM和基于子树输出和的长短期记忆网络Child-sumTree-LSTM架构,以递归方式捕捉和转化代码的层次结构和语法联系,形成具有鲁棒性的句法特征表示。最后,我们通过双线性池化等特征融合技术,将提取出的多元特征高效地整合在一起,为后续的代码作者识别模型提供高质量的输入特征集。S3:数据库查询:在一个利用用户编码特征向量构建的数据库中,我们面对的是基于k-最近邻查询来预测每段代码可能的前k个作者的问题。为解决高维数据的高效搜索难题,我们运用了近似最近邻搜索技术,并特别介绍了IVF-PQ算法,该算法结合了聚类和量化策略以提高搜索速度和保持一定准确率:首先通过聚类划分数据集并设置nprobe值减少搜索范围,随后借助PQ技术对各聚类内部的向量进行分块量化以实现高效存储和检索;针对数据库的动态插入需求,我们提出了优化的IVF-PQ维护方案,即在插入新用户特征时,仅做必要的聚类和量化更新,并在聚类点数超标时通过重新聚类避免算法性能下滑;同时,我们还设计了一种启发式方法,通过在超空间中生成单位向量并在红黑树中维护投影值排序,利用多树查询合并结果并进行排序去重以获取近似最近邻输出。

全文数据:

权利要求:

百度查询: 四川大学 王鹏超 一种基于多特征融合的恶意代码作者识别与代码侵权检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。