支付宝(杭州)信息技术有限公司朱安杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉支付宝(杭州)信息技术有限公司申请的专利模型预训练方法及装置、HTML页面处理方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114968240B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210617449.7,技术领域涉及:G06F8/38;该发明授权模型预训练方法及装置、HTML页面处理方法及装置是由朱安杰设计研发完成,并于2022-06-01向国家知识产权局提交的专利申请。
本模型预训练方法及装置、HTML页面处理方法及装置在说明书摘要公布了:本说明书实施例提供了模型预训练方法及装置、HTML页面处理方法及装置,其中,一种模型预训练方法包括:对训练样本中的HTML代码进行预处理,获得HTML代码特征;将所述HTML代码特征和所述训练样本中的页面图像输入待训练模型进行特征处理,输出特征处理结果;所述HTML代码和所述页面图像对应同一HTML页面;所述待训练模型包含嵌入层、编码器,所述嵌入层对所述HTML代码特征和所述页面图像进行特征转换,输出代码特征向量和图像特征向量,所述编码器对所述代码特征向量和所述图像特征向量进行融合计算,输出所述特征处理结果;基于所述特征处理结果执行对所述待训练模型进行预训练的至少一个预训练任务。
本发明授权模型预训练方法及装置、HTML页面处理方法及装置在权利要求书中公布了:1.一种模型预训练方法,包括: 基于训练样本中的HTML代码构建DOM树并进行剪枝处理获得剪枝DOM树; 对所述剪枝DOM树包含的节点进行归类处理,并确定归类DOM树包含的归类节点的节点特征作为HTML代码特征;所述归类节点中非文本节点的节点特征包括:所述非文本节点的节点编号、所述非文本节点对应的元素在页面图像中的图像坐标信息以及父节点的父节点编号;所述归类节点中文本节点的节点特征包括:所述文本节点的节点编号、所述文本节点在所述页面图像中的图像坐标信息、父节点的父节点编号、所述文本节点的token编号和所述文本节点对应的元素的文本特征; 将所述HTML代码特征和所述训练样本中的所述页面图像输入待训练模型进行特征处理,输出特征处理结果;所述HTML代码和所述页面图像对应同一HTML页面;所述页面图像基于所述HTML代码渲染获得; 基于所述特征处理结果执行对所述待训练模型进行预训练的多个预训练任务,并根据所述预训练任务的任务执行结果对所述待训练模型包含的嵌入层和编码器进行参数调整;所述预训练任务包括:对所述HTML代码中的掩码元素进行预测的语义识别任务,预测所述页面图像的掩码图像单元在所述页面图像中的位置区域的图像区域预测任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人支付宝(杭州)信息技术有限公司,其通讯地址为:310000 浙江省杭州市西湖区西溪路556号8层B段801-11;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励