深圳中泓在线股份有限公司陈志群获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳中泓在线股份有限公司申请的专利数据筛选方法和装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119622217B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510147778.3,技术领域涉及:G06F18/10;该发明授权数据筛选方法和装置、电子设备及存储介质是由陈志群;杨钧展;陈锦冰设计研发完成,并于2025-02-11向国家知识产权局提交的专利申请。
本数据筛选方法和装置、电子设备及存储介质在说明书摘要公布了:本申请实施例提供了一种数据筛选方法和装置、电子设备及存储介质,属于数据筛选技术领域。该方法包括:获取信息样本数据及信息噪声数据,其中,信息噪声数据表示干扰信息的数据;对信息样本数据及信息噪声数据进行相似度计算,得到数据相似度;基于数据相似度,对信息样本数据进行数据分类,得到样本数据类型,其中,样本数据类型包括噪声增量数据及目标信息数据;对信息噪声数据及噪声增量数据进行数据合并,得到目标噪声数据;基于目标信息数据及目标噪声数据,对预设的初始数据分类模型进行模型训练,得到目标数据分类模型;基于目标数据分类模型,对预设的信息收集数据进行数据筛选。本申请实施例能够提高信息数据筛选的准确率。
本发明授权数据筛选方法和装置、电子设备及存储介质在权利要求书中公布了:1.一种数据筛选方法,其特征在于,所述方法包括: 对预设的文本信息数据进行网络爬取,得到文本信息样本数据,并基于预设的噪声规则对所述文本信息样本数据进行初步筛选,得到文本信息噪声数据,其中,所述文本信息噪声数据表示干扰文本信息的数据; 对所述文本信息样本数据进行嵌入处理,得到文本信息样本向量,对所述文本信息噪声数据进行嵌入处理,得到噪声样本向量; 对所述噪声样本向量进行聚类处理,得到噪声向量簇群; 对所述噪声向量簇群进行簇心筛选,得到噪声簇心向量; 针对所述噪声向量簇群,对所述文本信息样本向量与所述噪声簇心向量进行相似度计算,得到数据相似度; 基于所述数据相似度,对所述文本信息样本数据进行数据分类,得到样本数据类型,其中,所述样本数据类型包括噪声增量数据及目标文本信息数据; 对所述文本信息噪声数据及所述噪声增量数据进行数据合并,得到目标噪声数据; 基于所述目标文本信息数据及所述目标噪声数据,对预设的BERT模型进行模型训练,得到目标数据分类模型; 基于所述目标数据分类模型,对预设的文本信息收集数据进行数据编码,得到文本信息编码向量; 基于所述目标数据分类模型,对所述文本信息编码向量进行多头注意力计算,得到文本信息聚合向量; 基于所述目标数据分类模型,对所述文本信息聚合向量进行类型映射,得到文本信息向量类型; 基于所述文本信息向量类型,对所述文本信息收集数据进行数据过滤,得到有效文本信息数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳中泓在线股份有限公司,其通讯地址为:518000 广东省深圳市南山区西丽街道西丽社区打石一路深圳国际创新谷八栋B座506、606、706;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励