首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Sentence-BERT和Word2Vec的语义特征提取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天翼云科技有限公司

摘要:本发明公开了一种基于Sentence‑BERT和Word2Vec的语义特征提取方法,属于数据中心的数据通信领域,使用预处理方法对日志数据进行清洗,去除掉日志数据中的涉密信息,使用分词技术将日志中的多个连接词划分成单个的词语,使用Drain解析器进行模板解析获取日志模板事件;将日志模板事件分别输入到预训练好的Sentence‑BERT模型和中Word2Vec方法中通过Sentence‑BERT获得的语义向量包含了句子级别的语义信息以及单词在句子中的位置信息,使用Word2Vec能够获取每个句子中单词的详细的词向量,通过加权平均获取第二部分的语义向量,将两部分语义向量进行融合,获得最终的语义向量;解决的了日志数据特征提取包含信息少以及克服日志不稳定现象,提高了模型的健壮性。

主权项:1.一种基于Sentence-BERT和Word2Vec的语义特征提取方法,其特征在于:具体包含如下步骤;步骤1,文件预处理:使用预处理方法对日志数据进行清洗,去除掉日志数据中的涉密信息,使用分词技术将日志中的多个连接词划分成单个的词语,使用Drain解析器进行模板解析获取日志模板事件;所述涉密信息包含数字、IP;其中,Drain为一种将日志句子中常量单词抽象出来的文本解析器;步骤2,特征提取:将日志模板事件分别输入到预训练好的Sentence-BERT模型将日志模板句子转化为向量的模型和中Word2Vec方法将单词转化为词向量的方法中通过Sentence-BERT获得的语义向量包含了句子级别的语义信息以及单词在句子中的位置信息,使用Word2Vec能够获取每个句子中单词的详细的词向量,通过加权平均获取第二部分的语义向量,将两部分语义向量进行融合,获得最终的语义向量;其中,Sentence-BERT为将日志模板句子转化为向量的模型;Word2Vec为将单词转化为词向量的方法。

全文数据:

权利要求:

百度查询: 天翼云科技有限公司 一种基于Sentence-BERT和Word2Vec的语义特征提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。