首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于语义特征的二进制函数边界检测方法、系统和电子设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国工程物理研究院计算机应用研究所

摘要:本发明提出基于语义特征的二进制函数边界检测方法、系统和电子设备,所述方法通过IDApro反汇编带有符号表的二进制程序构建数据集,利用BERT模型训练汇编代码从而判断是否为二进制函数的边界。本发明在反汇编的过程中能够增强函数的识别能力,可以使得漏洞检测、恶意软件分析,软件工程逆向等领域拥有更好的效果。

主权项:1.基于语义特征的二进制函数边界检测方法,二进制代码通过反汇编得到汇编代码,汇编代码又由汇编指令组成,汇编指令由一个助记符和n个操作符组成,其中n≥0,其特征在于:所述方法包括:步骤一、构建含有函数边界标记的汇编代码数据集;步骤二、利用数据集使用BERT模型进行预训练得到具有上下文语义的词向量;步骤三、对预训练好的BERT模型再次进行训练得到能够判断汇编指令是否为函数边界的模型;步骤四、将汇编代码输入到训练好的函数边界判断模型中进行二进制函数边界检测;所述BERT模型结构分为3部分,即Embeddings,Bert和输出向量;所述Embeddings层由词向量TokenEmbeddings、函数边界向量functionembeddings、位置信息向量PositionEmbeddings叠加形成单个助记符的词向量表示;Bert整体由多个TransformerEncoder叠加而成,最后输出含有上下文语义的词向量;所述函数边界向量包括非函数边界EM、函数起始地址ES和函数结束地址EE;在预训练的过程中有两个训练任务,一个是对TokenEmbeddings的掩码预测任务,掩盖掉15%的Token,并预测其被掩盖掉的部分,将输出结果与掩盖前的TokenEmbeddings进行比较,计算交叉熵为loss_mask;另一个训练任务是函数边界预测任务,即在每一个Token的嵌入向量后面添加一个线性层和softmax层,将输出结果与functionembeddings进行对比,计算交叉熵为loss_func;最终交叉熵loss=loss_mask+loss_func,并使用Adam优化器将该交叉熵loss最小化;预训练好的BERT模型会输出具有上下文语义的词向量。

全文数据:

权利要求:

百度查询: 中国工程物理研究院计算机应用研究所 基于语义特征的二进制函数边界检测方法、系统和电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术