恭喜上海交通大学施家荣获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜上海交通大学申请的专利基于多维特征融合的二阶段学术数据网页分类方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115130601B 。
龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210795308.4,技术领域涉及:G06F18/241;该发明授权基于多维特征融合的二阶段学术数据网页分类方法及系统是由施家荣;卢彬;杨莉娜;甘小莺;王新兵;傅洛伊;周成虎;曹心德设计研发完成,并于2022-07-07向国家知识产权局提交的专利申请。
本基于多维特征融合的二阶段学术数据网页分类方法及系统在说明书摘要公布了:本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
本发明授权基于多维特征融合的二阶段学术数据网页分类方法及系统在权利要求书中公布了:1.一种基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上;所述步骤S2包括:步骤S201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;步骤S202:文本预处理,对中英文文本进行分词处理,并去除停用词;步骤S203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j: 其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF: 其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数即ni,j≠0;tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:TF-IDF=TF×IDF其中,TF表示词频;IDF表示逆向文件频率;步骤S204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=t1,w1;t2,w2;...;tn,wn,tii=1,2,...,N为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率: 其中,为该网页所有特征组成的向量,是该网页特征向量对应的权重向量;y表示待判断的网页;同样,某网页为非数据网页的概率为: 得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为: 步骤S205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数lθ: 其中,Lθ表示模型参数θ的似然函数;m表示待判断的网页总数;yi表示网页预测得到的类别;表示待惩罚参数的平方;hθxi代表第i个特征特征xi根据选择的参数计算输出变量为1的可能性;借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ;所述步骤S4包括:步骤S401:获取训练数据;输入数据有两个维度:第一阶段分类结果网页的内容长文本和网址链接;步骤S402:文本预处理,包括分词和过滤停用词;长文本同之前第一阶段的预处理方法一致,而网址特征则根据其结构特征,将每个链接分为协议、主机名、路径、文件名和参数部分,以突出不同部分之间的顺序关系;在过滤停用词时保留重要的结构性符号,删除过长且无实际意义的乱码符号;步骤S403:将每个网页对应的文本长度和网址链接长度固定;取一固定文本长度和网址链接长度,大于此长度截断,小于此长度用pad填充;步骤S404:长文本数据和网址链接数据训练各自的词嵌入模型;模型选用连续跳跃元语法,每个词汇的特征长度为300;连续跳跃元语法模型方法利用中心词Cw来预测前后文词语出现的概率,即PCi|Cw,其中:w-k≤i≤w+k,w≠k;式中,Ci表示中心词周围的词;Cw代表中心词;减少计算量并降低对生僻字词的关注程度,对词汇表降维:保留部分高频词汇,统一用unk替换低频词汇,利用训练好的词嵌入模型,分别对长文本和网址链接数据进行向量化操作,获得词汇矩阵作为文本卷积神经网络模型的输入;步骤S405:长文本和网址链接的词汇矩阵分别过文本卷积神经网络模型,最后再全连接层拼接在一起,最终输出一个固定长度的特征向量;步骤S406:利用三元组损失训练文本卷积神经网络中的权重参数,得到最终模型;三元组损失函数由如下公式所示: 式中,Xa、Xb、Xn分别为锚点样本、正样本、负样本;m为间隔;表示锚点样本与正样本之间的欧氏距离;表示锚点样本与负样本之间的欧氏距离;步骤S407:新的数据进入模型时,通过训练好的文本卷积神经网络模型得到特征向量,将其投影到训练数据所在的特征空间中,基于聚类算法判断该网页属于哪个类别,输出最终预测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。