买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了基于多源数据信息数字化管理系统及方法,涉及信息数字化管理技术领域,本发明通过自适应数据接口和自动模式提取,实现数据接口的自动化配置和新数据源的快速适应,减少人工干预,提高数据处理的自动化程度和效率;利用自监督学习模型自动识别并清洗数据中的噪声和异常值,并通过预训练模型实现数据的自动标准化处理,显著提升数据质量和处理效率,同时通过自监督学习模型对非结构化数据进行自动标注,并根据标注结果生成数据转换规则,统一不同格式的数据,提高标注和转换的自动化程度,并采用分布式存储技术,并基于全文检索技术建立高效的数据索引和检索机制,显著提高数据存储和检索效率,满足大规模数据管理的需求。
主权项:1.基于多源数据信息数字化管理方法,其特征在于,包括:步骤1.城市项目数据采集,进行数据源识别,识别智能城市中各部门和系统的多源数据,包括交通传感器数据、环境监测数据、能源消耗数据、社交媒体数据;数据接口采用自适应数据接口,自动适应新加入的数据源;采用自监督学习算法,自动识别并清洗数据中的噪声和异常值,并利用智能数据转换工具,根据预训练模型自动进行数据标准化处理;步骤2.数据标注转换,采用自监督学习模型对非结构化数据,包括文本、图像进行自动标注;根据自动标注结果,生成数据转换规则,统一不同格式数据;步骤3.数据存储管理,采用分布式存储技术进行数据储存,并基于全文检索技术建立数据索引和检索机制;步骤4.数据协同分析,搭建联邦学习平台,各机构在本地训练模型,仅共享模型参数,不传输原始数据;中央服务器聚合各机构上传的模型参数,更新全局模型;步骤5.数据质量监控溯源,部署智能合约,进行自动化数据质量检查和审计;在数据生成、传输和处理的每个环节生成哈希值,并记录在区块链中;步骤1中,构建自适应数据接口方式为:定义每个数据源Di的特征向量Xi,包括结构化数据、半结构化数据以及非结构化数据,Xi=[xi1,xi2,...xij],其中,xij是第i个数据源的第j个特征,j同时表示特征数量;使用支持向量机SVM进行训练分类模型,分类模型的分类器C决策函数为:其中X表示待分类的数据特征向量,αj为支持向量的权重,yj为支持向量的标签,KX,Xj表示核函数,用于计算特征向量之间的相似性,b为偏置项;训练过程包括:收集已标注的训练数据、提取特征向量、训练SVM模型;进行模式提取,识别数据源的结构和格式信息,设数据源Di的模式为Si;对于结构化数据,提取表结构和字段信息:Si={Fieldj,todj|j=1,2,...,n},此处Fieldj,todj分别表示第j个特征的字段名和数据类型;对于半结构化数据,提取节点和属性信息:Si={Nodej|j=1,2,...,n},此处Nodej表示第j个特征的节点名;对于非结构化数据,使用自然语言处理NLP技术提取文本特征:Si={Keywj|j=1,2,...,n},此处Keywj表示第j个特征的关键字;根据提取的模式Si,生成数据转换规则Ti;步骤1中,构建自适应数据接口方式还包括:利用上下文无关文法CFG表示数据转换规则:G=N,Σ,P,S,此处N为非终结符集合,Σ为终结符集合,P为生成规则集合,S表示开始符号;应用生成的转换规则Ti,将数据源数据Di转换为目标格式数据Di′;步骤1中数据标准化处理方式为:初步清洗数据,去除空值和重复数据,从原始数据提取特征,设时间序列数据集为X={x1,x2,...xi},其中xi表示第i个样本的特征向量;对于每个样本,构建模型输入,采用BERT模型将时间序列数据转化为模型格式:Inputxi=[CLS]+Tokenizexi+[SEP],此处Tokenizexi表示将特征向量转化为模型输入,[CLS],[SEP]分别表示输入的开始和结束;采用掩码语言模型MLM进行掩码操作,设输入序列为随机选择部分标记进行掩盖:采用最大化掩盖标记的预测概率进行训练,设是模型对掩盖标记xij的预测概率,损失函数定义为:其中LMLM为掩码语言模型的损失函数,n为样本数,masked为掩盖标记的索引集合,表示模型预测的概率;总损失函数结合掩码语言模型损失,即L=LMLM,此处L表示总损失函数;使用优化算法Adam最小化总损失函数,对模型参数进行更新:θ*=argminθL,θ*表示训练后的模型参数;利用训练好的自监督学习模型检测数据中的噪声和异常值;对于每个样本,计算模型预测值和真实值之间的残差:residuali表示第i个样本的残差;进行计算残差,将超过阈值的残差认为异常值;然后使用智能数据转换工具,根据预训练模型自动进行数据标准化处理;进行均值归一化和Zscore标准化,再使用预训练模型对新数据进行标准化处理。
全文数据:
权利要求:
百度查询: 比塔(上海)数据科技有限公司 基于多源数据信息数字化管理系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。