首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种临床专病数据的资产价值评估方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中日友好医院(中日友好临床医学研究所)

摘要:本发明提供一种临床专病数据的资产价值评估方法及系统,涉及数据处理技术领域,方法包括:获取专病数据查询规则,根据所述专病数据查询规则,获取相关的专病数据资源,对所述专病数据资源进行数据处理,得到专病数据资产,对所述专病数据资产中的专病数据进行合规审查,基于数据评估需求,对合规审查后的专病数据进行指标变量筛选,根据筛选出的指标变量,对所述专病数据的资产价值进行评估。能从多个维度对专病数据的资产价值进行评估,注重数据在不同应用场景中的多维价值,实现对临床数据资产的高效整合和全面管理,提高了对大规模数据价值评估的客观性和准确性。

主权项:1.一种临床专病数据的资产价值评估方法,其特征在于,包括:S1:获取专病数据查询规则;S2:根据所述专病数据查询规则,获取相关的专病数据资源;S3:对所述专病数据资源进行数据处理,得到专病数据资产;S4:对所述专病数据资产中的专病数据进行合规审查;S5:基于数据评估需求,对合规审查后的专病数据进行指标变量筛选;S6:根据筛选出的指标变量,对所述专病数据的资产价值进行评估;其中,所述S2具体包括:S201:根据所述专病数据查询规则,以指标变量为单位对规则引擎进行逐项梳理;S202:根据所述规则引擎将所述指标变量分类成模式串,并通过Boyer-Moore算法匹配对应的规则字段: ;其中,shift表示模式串向右移动的位数,j表示模式串中不匹配的字符位置,表示字符在模式串中最右出现的位置,表示需要匹配的第个模式串;S203:确定满足专病规则的人群: ;其中,表示专病诊断对应的权重矩阵,表示第个样本的诊断编码,表示对应样本的第次就诊产生的诊疗记录,表示第次就诊产生的诊断,表示第次就诊产生的诊断;S204:确定每个特征对目标变量的重要性得分;S205:根据所述重要性得分,通过指标变量筛选,获得对应专病人群的指标信息: ;其中,表示初始权重向量,Ri、Hi和Mi表示样本,表示样本Ri在第k个特征上的值,表示样本Hi在第k个特征上的值,表示样本Mi在第k个特征上的值,k表示第k个特征,d表示样本对应的诊断数量;S206:通过患者唯一标识,对同一患者各个来源的数据信息进行关联,形成同一患者的集成数据资源;S207:将各个患者的集成数据资源进行汇总,形成专病数据资源;其中,所述S5具体包括:S501:确定专病数据的目标变量和评估需求;S502:对专病数据中的各个指标变量进行初步探索,确定数据的基本统计特征;S503:计算各个指标变量与所述目标变量之间的相关系数,并通过皮尔逊相关系数法,评估变量之间的线性关系: ;其中,表示变量x与变量y的相关系数矩阵,xi表示指标变量x的第i个观测值,yi表示指标变量y的第i个观测值,表示指标变量x的均值,表示指标变量y的均值;通过最小二乘法拟合多项式回归函数即回归模型,评估指标变量的非线性关系:定义损失函数为: ; ;其中,表示模型预测的值,β0表示常数项回归系数,βp表示第p个多项式的阶数对应的回归系数,p=1,2,…,d,是多项式的总阶数,是误差项;通过最小化损失函数来估计各个指标变量对应的回归系数即所述相关系数;S504:计算各个所述指标变量的方差,排除方差小于预设方差值的指标变量: ;其中,表示指标变量的方差,n表示指标变量的数量;S505:通过梯度提升机算法,评估每个指标变量对目标变量的重要性分值,并对所有指标变量进行重要性排名;S506:对各个指标变量重要性分值进行归一化处理: ;其中,为指标变量的重要性分值,为指标变量的标准化重要性分值;S507:根据指标变量的重要性排名,通过递归特征消除算法进行特征选择,确定初步的指标变量列表;S508:根据初步的指标变量列表,通过计算方差膨胀因子,评估指标变量之间的共线性;S509:根据共线性结果,按指标变量对模型影响力由高到低排序,选择排序靠前的指标变量,形成最终的指标变量列表: ;其中,为指示函数,表示特征是否被用于第m棵树上节点j的分裂,M表示树的总数;S510:对最终的指标变量列表中的每一项指标变量逐一进行标准化和归一化处理: ;其中,表示指标变量的标准化值,表示指标变量的第个特征值,表示指标变量的均值,表示指标变量的标准差; ;其中,表示指标变量的归一化值,表示指标变量的最小值,表示指标变量的最大值;S511:通过模型预测填充算法,将原始数据矩阵分解成低秩近似矩阵,对最终的指标变量列表中的各个指标变量进行缺失值处理: ;其中,表示低秩近似矩阵中第i个缺失值特征变量的估算值,表示第个特征变量的实际值,表示第个特征变量的实际值,表示第i个缺失值特征变量在原始数据矩阵的排序号,表示第个缺失值特征变量在原始数据矩阵的排序号,表示第个缺失值特征变量在原始数据矩阵的排序号;S512:对最终的指标变量列表中的类别型变量进行独热编码,转换成直接用于特征筛选的指标变量值;S513:构建回归模型,根据以下公式估计所述回归模型的回归系数即所述相关系数,评估指标变量对目标变量的影响程度: ;其中,表示包含所有指标变量观测值的矩阵,表示目标变量的观测值向量,表示估算的回归系数,XT表示X的转置矩阵;S514:通过互信息方法以及评分函数,对指标变量进行独立评估和筛选,形成初步特征集合: ;其中,为指标变量和目标变量的互信息,表示指标变量和目标变量同时取值和的联合概率分布,表示指标变量的边缘概率分布,表示目标变量的边缘概率分布;S515:通过递归特征消除迭代地添加或移除特征,对所述初步特征集合进行超参数调优,筛选出最终的指标变量;其中,所述S505中评估每个指标变量对目标变量的重要性分值具体包括:确定所有指标变量的初始预测结果: ;其中,为基于所有指标变量的初始预测结果,n表示指标变量总数;构建决策树模型,并对所述决策树模型进行迭代更新: ;其中,表示迭代次数,为学习率,为第次迭代的生产的决策树模型;基于每棵决策树的每个节点,计算各个所述指标变量进行分裂而导致的损失减少量,得到每个变量的重要性分值: ;其中,为指标变量的重要性增量,j表示决策树的节点,表示在m次迭代的第j个节点上,使用指标变量进行分裂带来的损失减少。

全文数据:

权利要求:

百度查询: 中日友好医院(中日友好临床医学研究所) 一种临床专病数据的资产价值评估方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。