首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于异构数据的糖尿病弱监督分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:本发明公开了一种基于异构数据的糖尿病弱监督分类方法,属于糖尿病类型诊断技术领域,包括:变分推理子模块,通过对去除冗余信息的静态指标数据构建高斯混合模型来拟合其分布,其后验概率分布用变分分布来近似,利用KL散度测量变分分布与后验概率的距离,最大化证据下界来求解最小KL散度,得到的潜在变量可反映出生理标志物数据的聚类归属;慢速对比学习子模块,通过对生理信号数据监测,利用慢特征分析方法挖掘动态监测数据的内在属性,形成正负样本对,构建基于慢速特征的慢速对比学习框架,学习生理信号的表征信息;证据集成模块对两个子模块结果通过改进的DS理论进行融合。本发明以在弱监督条件下构建多维互补特征与糖尿病类型间的映射关系。

主权项:1.一种基于异构数据的糖尿病弱监督分类方法,其特征在于,包括以下步骤:S1、针对生理标志物数据的变分推理子模块,对医疗记录中的生物标志物数据去除冗余信息,然后构建高斯混合模型来拟合其分布,其后验概率分布用变分分布来近似,利用KL散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小KL散度,得到可反映出生物标志物数据的聚类归属的潜在变量;S2、针对FGM数据的慢速对比学习子模块,通过对生理信号数据的监测,利用慢特征分析方法挖掘动态监测数据的内在属性,构建基于慢速特征正负样本对的分层对比学习框架,学习生理信号的表征信息,用于下游的糖尿病分类任务;S3、证据集成模块利用改进的DS理论对变分推理子模块和慢速对比学习子模块结果进行融合;步骤S1中,具体操作为:S11、通过基于互信息的价值函数消除生物标志物数据中的冗余信息,得到非冗余生物标志物数据x'i;其中,生物标志物数据记为X={x1,x2,…,xN},xi表示第i个个体的数据,N为个体的数量;S12、利用高斯混合模型拟合非冗余生物标志物数据x'i的分布:非冗余生物标志物数据x'i服从高斯混合分布,表示为: 其中,混合物分布的每个组成部分被视为生物标志物数据的一个簇;π为高斯分布的混合系数;πk为第k个高斯分布的混合系数;μ为高斯分布的平均值;μk是第k个高斯分布的平均值;Ω为逆协方差矩阵;Ωk为第k个逆方差矩阵;K为混合高斯模型中高斯分布的总个数;为第k个高斯分布中非冗余生物标志物数据x'i的概率;使用第k个逆协方差矩阵Ωk来替换协方差矩阵Σ,其中,给定π,潜在变量Z的条件概率分布表示为: 其中,znk是潜在变量zn的第k个元素;对于观察到的数据x'n,存在一个潜在变量zn;如果将观察到的数据点分发到第k个集群,则对应的znk=1,其余znj,j≠k=0;假设π,μ,Ω服从共轭先验分布,形式化为:π~Dirα3μ,Ω~NWμ0,λ0,V0,n04其中,Dirα是带有参数α的狄利克雷分布,NWμ0,λ0,V0,n0是带有参数μ0,λ0,V0,n0的高斯-威沙特分布;S13、通过变分贝叶斯推理方法创建变分分布qZ,π,μ,Ω来近似后验概率pZ,π,μ,Ω|X,利用KL散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小KL散度: 其中,q*Z,π,μ,Ω是最优变分分布; 定义为: 其中,Eq表示期望;引入平均场理论来分解变分分布,即: Z,π,μ,Ω各自的变分分布最优解的对数是所有变量联合概率分布的对数;每个生物标志物样本归属于不同高斯分布的聚类结果通过潜在变量获得;步骤S2中,具体操作为:S21、根据慢特征分析提取串行的不同慢性特征;S22、利用二维属性挖掘模块构建正负样本对,捕获实例间和实例内的关系;S23、为实例间和实例内分别设计一个分层损失函数,捕获时间串行的上下文表示;步骤S21中,对一维血糖监测数据进行维度提升操作:假设:si={si0,si1,si2,…},其中sij表示在时间点j的血糖监测数据,维度升高的葡萄糖信号si定义如下: 因此,si的维度等于n乘以si,提升运算符L定义为映射形式化为si=Lsi,从葡萄糖串行si中划分的两个视图si,1和si,2通过维度提升操作传输到si,1和si,2;通过慢特征分析方法减少葡萄糖数据的缓慢特征变化,形式化为: 其中,·t和表示时间平均值和差分运算符;g·是一个将升维的葡萄糖信号si,v映射到慢速特征γGLU的函数,其中v∈{1,2};通过最小化慢特征变化ΔγGLU,得到升维葡萄糖信号的两个慢特征和步骤S22中,利用二维属性挖掘模块构建正负样本对,捕获实例之间和实例内的关系:1实例间样本对:鉴于同一样本生成的慢特征是相似的,而不同样本生成的慢特征则有显着区别,和是互为正样本对,而和是互为负样本对;2实例内样本对:基于先验知识,来自两个升维的两个慢特征的相同时间戳具有相似的特征,即和是互为正样本对,而和是互为负样本对;其中,t和t'均表示时间戳;步骤S23中,为了捕获时间串行的上下文表示,为实例间和实例内分别设计一个分层损失函数,包括:1实例内对比损失:设i表示输入时间串行样本的索引,t表示时间戳;ri,1t和ri,2t表示同一样本在相同时间戳t的两个表示形式;第i个样本的时空内对比损失公式为: 其中,T是两个视图中时间戳的长度,是指示函数;2实例间对比损失:时间戳t处的实例间对比损失为: 实例间对比损失和实例内对比损失是互补的,总损失定义为: 其中,η为系数;通过最小化总损失,判别性表示捕获输入时间串行数据的时间和实例动态;步骤S3中,具体操作为:辨识框架表示为A,基本概率分配函数m1和m2表示双源证据的置信度,即变分推理子模型中带有置信度的聚类结果为m1;慢速对比学习子模型中下游糖尿病诊断任务带有置信度的分类结果为m2;首先,对mi进行了自适应缩放,并对所有基本概率分配函数执行幂运算,修改后的基本概率分配函数如下: 其中,修改后的基本概率分配函数极端偏差程度的判断公式为: 表示向下取整函数;当Δδ时,原始值mi需要自适应缩放: 其中β1和β2是刻度参数,且β1β2;重新分配修改后的基本概率分配函数的权重,假设框架A的第j个元素Aj包含nj数据实例,则重新分配过程构造如下: 其中,θ是一个常量;n-j是框架A的第j个元素Aj之外包含的样本数;M是重新分配后的基本概率分配函数的权重;此外,为了确保元素的重新分配后的基本概率分配函数的权重之和保持等于1,将其归一化如下: 使用Dempster组合规则融合多组证据以获得新的基本概率分配函数m,表示为: 其中,mres表示证据理论融合策略的最终结果,Ai和Bj分别表示不同辨识框架中的元素。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于异构数据的糖尿病弱监督分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。