买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学
摘要:本发明公开一种基于反事实预测的治疗效果估计方法、系统、设备及介质,涉及机器学习技术领域,包括:获取被测个体的治疗信息,以及影响治疗和治疗结果的个体特征变量,根据治疗信息划分治疗组,并获取治疗组相对应的治疗结果;在个体特征变量中,采用互信息方法筛选出混杂变量表征与调整变量表征;基于对照组和治疗组的治疗信息,平衡混杂变量表征;根据调整变量表征和平衡后的混杂变量表征,在对照组中筛选出与被测个体表征相似度超过设定阈值的样本,从而得到被测个体的反事实结果;将潜在事实结果与反事实结果做差得到被测个体的治疗效果估计结果。消除选择偏差,减少混杂变量影响,提高治疗效果估计的鲁棒性。
主权项:1.一种基于反事实预测的治疗效果估计方法,其特征在于,包括:获取被测个体的治疗信息,以及影响治疗和治疗结果的个体特征变量,根据治疗信息划分治疗组,并获取治疗组相对应的潜在事实结果;在个体特征变量中,采用互信息方法筛选出与治疗独立且与治疗结果相关的调整变量表征,以及与治疗和治疗结果均相关的混杂变量表征;所述互信息方法包括:以最大化工具变量表征与治疗间的互信息以及最小化工具变量表征和治疗结果间的互信息,作为对工具变量表征学习的约束,以最大化混杂变量表征与治疗间的互信息以及最大化混杂变量表征与治疗结果间的互信息,作为对混杂变量表征学习的约束,最小化调整变量表征与治疗间的互信息作为对调整变量表征学习的约束;基于对照组和治疗组的治疗信息,采用积分概率度量平衡混杂变量表征;根据调整变量表征和平衡后的混杂变量表征,在对照组中筛选出与被测个体表征相似度超过设定阈值的样本,从而得到被测个体的反事实结果;将潜在事实结果与反事实结果做差得到被测个体的治疗效果估计结果;用于解耦变量的表征学习网络;变量X、T和Y分别对应于观察到的个体特征变量、治疗和结果,变量e是与T和Y都相关的未观察到的混杂变量;每个单元的每个变量X只能是治疗和结果的原因,因为变量是单元的固有属性;每个变量X可能属于混杂变量U、工具变量Z和调整变量A;X的每一项都会被判断属于哪一类变量;当所有项目都被判断时,变量就会被分割;在这个方法中,假设观察到的变量X被假设为外生的,工具变量、混杂变量和调整变量的分解表示也是外生的;假设有一组数据,N为个体数量,根据变量X与T和Y的关系,从变量X中学习Z、U和A的表示;工具变量必须满足的三个基本假设是:(i)相关性:与治疗相关,;(ii)排他性:仅通过其对治疗的影响间接影响结果,;(iii)独立性:独立于未测量的混杂变量,;使用神经网络分别模拟工具变量Z、混杂变量U和调整变量A的表征为工具变量表征、混杂变量表征和调整变量表征;由于假设了变量X的外生性,并且学习的表征总是满足独立性的工具条件;关于互信息;令A和B是两个相关的随机变量,从A和B的分布中抽样得到的样本和bi;通过最大化最小化它们之间的互信息来增加减少A和B之间的相关性;样本对,估计互信息需要数据分布;学习变分分布来近似;将具有相同索引的样本对视为正样本对,不同索引的样本对视为负样本对;通过最大化最小化正样本对的变分近似与负样本对的变分近似之间的差异,来增加减少A和B之间的相关性;可以直观理解为,当与其对应的样本对之间的相关性与与之间的相关性存在明显差异时,互信息最大化任务就被实现了,同时,互信息最小化则是减少这种差异;(1)通过互信息的最大化和最小化来约束学习工具变量Z的表征,以满足与治疗相关性条件和与结果排他性条件;(1-1)学习相关性;要求工具变量表征与治疗T相关;使用带有神经网络参数的第一变分分布近似真实条件分布,相应的对数似然损失函数为: ;通过最小化上述对数似然损失函数,得到最优变分逼近,然后,最大化工具变量表征与治疗之间的互信息为: ;其中,N表示样本量;为个体的特征变量,为第个治疗,为第个治疗;对数表示正样本对的条件对数似然值,表示负样本对的条件对数似然值,通过最大化正负样本对之间的差异来优化相关性条件的工具变量表征;(1-2)学习排他性;要求工具变量Z表征仅通过治疗T和未观察到的误差变量e与结果Y相关,;得到第二变分分布,相应的对数似然损失函数为: ;再满足以T为条件的最小化Z和Y之间的互信息为: ;其中,是每对正负样本的权重;为神经网络参数;为第个的结果,为第个的结果;表示正样本对的条件对数似然值,表示负样本对的条件对数似然值;在相关性学习中的互信息最大化不同,让正样本对和负样本对的对数似然值接近,以使得工具变量表征和结果Y条件独立;(2)通过互信息最大化来分解和学习与治疗和结果相关的混杂因素的表征;(2-1)学习与治疗T相关的混杂变量表征;具体地,使用第三变分分布近似条件分布,相应的对数似然损失函数为: ;最大化混杂变量表征与治疗T之间的互信息为: ;其中,为神经网络参数;为正样本对的条件对数似然值,为负样本对的条件对数似然值,正样本对和负样本对被用来增加U和T之间的关联;(2-2)混杂变量表征和结果Y相关,使用第四变分分布近似条件分布,相应的对数似然损失函数为: ;最大化混杂变量表征和结果Y之间的互信息为: ;其中,为神经网络参数;为正样本对的条件对数似然值,为负样本对的条件对数似然值;最大化上述互信息以使得混杂变量表征和结果Y相关;(3)治疗T、结果Y和调整变量A形成对撞结构;根据通用的因果结构规则,对撞结构中的起始节点独立于结束节点,,利用上述互信息方法找出与治疗T独立与结果Y相关的变量,为调整变量A的表征;使用带有神经网络参数的第五变分分布近似真实条件分布,相应的对数似然损失函数为: ;最小化调整变量表征与治疗T之间的互信息为: ;其中,为正样本对的条件对数似然值,为负样本对的条件对数似然值;在上述带有互信息约束的过程中,工具变量表征试图提取与治疗T相关且与结果Y条件独立的信息,混杂变量表征则被鼓励与T和Y都相关,而调整变量表征与T不相关,由此通过互信息分解出工具变量表征、混杂变量表征和调整变量表征;平衡分布;积分概率度量是概率分布之间的一类度量;为了平衡治疗组和对照组在表征空间中的分布,在模型损失基础上增加额外的正则化项来修正衡量治疗组和对照组的分布距离,该分布距离就是IPM,用Wasserstein距离,用于测量两种分布之间的差异;对于定义在上的两个概率密度函数p和q,以及函数的函数族G,有: ;积分概率度量是对称的,且遵守三角不等式,同时自然满足的条件;对于足够丰富的函数族G,,这时就是一个真正的度量;与混杂变量相比,调整变量没有必要平衡,因为之前就使用互信息解除了与t的相关性,所以只需要混杂变量的表征和治疗作为IPM的输入,最小化IPM,加入相关损失,就可以实现混杂变量的平衡: ;其中,是分到对照组的个体,是分到治疗组的个体;相关损失包括:每个变分分布都会逼近相应的条件分布,通过将所有变分逼近的对数似然损失函数组合起来得到对数似然总损失函数:。
全文数据:
权利要求:
百度查询: 山东大学 基于反事实预测的治疗效果估计方法、系统、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。