Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京大学黄晶获国家专利权

北京大学黄晶获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京大学申请的专利基于大模型的垂直网站信息抽取方法、装置、设备和介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119598050B

龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411674263.0,技术领域涉及:G06F16/958;该发明授权基于大模型的垂直网站信息抽取方法、装置、设备和介质是由黄晶;宋洁;张平文设计研发完成,并于2024-11-21向国家知识产权局提交的专利申请。

基于大模型的垂直网站信息抽取方法、装置、设备和介质在说明书摘要公布了:本发明公开了一种基于大模型的垂直网站信息抽取方法、装置、设备和介质。根据本发明提供的技术方案,利用大语言模型,从垂直领域网站中选取的种子网页中提取目标属性对应的第一属性文本信息;从该信息对应的节点中筛选得到正确节点,并确定正确节点的XPath的绝对路径表达式;基于绝对路径表达式从DOM树中确定锚节点,并基于正确节点和锚节点的相对位置,构建XPath最终表达式;利用XPath最终表达式,从垂直领域网站中提取出目标属性对应的第二属性文本信息。通过本发明由垂直领域网站中的种子网页确定出正确节点和锚节点,并由二者相对位置得出的XPath最终表达式从网站中提取目标信息,实现了在无需模型训练的情况下,成本更低且更精确的提取目标信息。

本发明授权基于大模型的垂直网站信息抽取方法、装置、设备和介质在权利要求书中公布了:1.一种基于大模型的垂直网站信息抽取方法,包括: 利用大语言模型,从垂直领域网站中选取的种子网页中提取目标属性对应的第一属性文本信息; 从种子网页中第一属性文本信息对应的节点中筛选得到第一属性文本信息对应的正确节点,并确定正确节点对应的XPath的绝对路径表达式;其中, 通过遍历种子网页对应的DOM树,从中识别并筛选包含第一属性文本信息的待测节点; 从待测节点中筛选得到第一属性文本信息对应的正确节点;其中,将各个待测节点中的第一属性文本信息修改为判别文本信息;利用大语言模型提取修改后的各个待测节点的第三属性文本信息,判断各个待测节点的第三属性文本信息与判别文本信息是否相同;将第三属性文本信息与判别文本信息相同的待测节点确定为正确节点; 通过从正确节点向上追溯至DOM树的根节点,确定各个种子网页的正确节点对应的XPath的绝对路径表达式; 基于XPath的绝对路径表达式从种子网页对应的DOM树中确定锚节点,并基于正确节点和锚节点的相对位置,构建目标属性对应的XPath最终表达式; 利用目标属性对应的XPath最终表达式,从垂直领域网站中提取出目标属性对应的第二属性文本信息。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京大学,其通讯地址为:100000 北京市海淀区颐和园路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。