恭喜北京理工大学杨晓春获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京理工大学申请的专利一种面向数据湖的多表语义连接方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115017151B 。
龙图腾网通过国家知识产权局官网在2025-06-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210413337.X,技术领域涉及:G06F16/22;该发明授权一种面向数据湖的多表语义连接方法是由杨晓春;于明飞;王佳佳;张志威;王国仁设计研发完成,并于2022-04-20向国家知识产权局提交的专利申请。
本一种面向数据湖的多表语义连接方法在说明书摘要公布了:本发明提供的一种面向数据湖的多表语义连接方法,基于两个构建列嵌入向量模型构建孪生网络模型,将步骤一获得新表格,根据给定的标签,组建表格对;将多组表格对输入到孪生网络模型中,对其进行训练,因此只需要提供表格具有基本的内容信息就能够进行表格的可连接性预测,并快速计算出结果;该方法没有多余的预处理不需要额外的计算步骤,且设计简单容易实现,提高了多表语义连接方法和预测模型的效率,具备良好的可扩展性、鲁棒性和稳定性;采用Simhash对表格内的行进行抽样,只需按照相同的比例重新构造一张数据行更少的新表格作为输入,这既可以减小表格的输入规模,又可以最大限度的保留表格的特征。
本发明授权一种面向数据湖的多表语义连接方法在权利要求书中公布了:1.一种面向数据湖的多表语义连接方法,其特征在于,包括:步骤一、获取表格,对每个表格进行抽样,得到新的表格,具体为:步骤1、针对每个表格,经预处理后输入词嵌入向量编码器,将表格中每个格中的文本表示转化成向量表示,然后随机生成的一个n维基准向量0n;n为2的整数次幂;步骤2、计算表格向量表示中目标列k的向量表示φuk与0n向量的乘积,得到m×n纬的向量Lkphi,0n;m表示目标列k的行数;对向量Lkphi,0n进行标准化,即元素值大于或等于0时取1,小于0时取0,将得到一个m×n维的01向量;计算m×n维的01向量各行向量之间的汉明距离;步骤3、根据汉明距离,将表格行分到不同的类别中;步骤4、按照设定比例分别从每个类别中抽取表格行,将抽取的表格行组合成新表格;步骤二、基于两个构建列嵌入向量模型构建孪生网络模型,将步骤一获得新表格,根据给定的标签,组建表格对;将多组表格对输入到孪生网络模型中,对其进行训练;步骤三、对于输入的两个表格,按照步骤一的方法进行抽样后,输入到步骤二训练好的孪生网络模型中,得到预测结果,即该两个表格是否为相似表格。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。