买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学
摘要:本发明涉及生物标志物筛选技术领域,公开了基于迁移学习和差异网络的生物标志物筛选方法及系统,基于第一和第二协方差矩阵的样本估计,得到辅助数据集对应的差异网络;基于已患A疾病的第二疾病组数据子集和未患A疾病的第二对照组数据子集,生成第三和第四协方差矩阵;基于第三、第四协方差矩阵的样本估计以及辅助数据集对应的差异网络,得到目标数据集与辅助数据集对应的差异网络之间的差异;将差异网络之间的差异与基于辅助数据集对应的差异网络进行相加,得到目标数据集对应的差异网络,基于目标数据集对应的差异网络,确定筛选的生物标志物。本发明提高了目标来源中基因调控网络的估计和推断准确性。
主权项:1.基于迁移学习和差异网络的生物标志物筛选方法,所述方法不应用于疾病的诊断和治疗,其特征是,所述方法包括:获取辅助数据集,所述辅助数据集,包括:已患A疾病的第一疾病组数据子集和未患A疾病的第一对照组数据子集;基于已患A疾病的第一疾病组数据子集,生成第一协方差矩阵;基于未患A疾病的第一对照组数据子集,生成第二协方差矩阵;基于第一协方差矩阵和第二协方差矩阵的样本估计,得到辅助数据集对应的差异网络;所述基于第一协方差矩阵和第二协方差矩阵的样本估计,得到辅助数据集对应的差异网络,具体包括:基于真实差异网络矩阵的定义:;其中,和分别为辅助数据集中未患A疾病的第一对照组和已患A疾病的第一疾病组数据中生物标记物的真实协方差矩阵的逆矩阵,存在以下等式关系:;因此,对于求辅助数据集中的差异网络矩阵的估计,优化如下函数: ;;其中,是调节参数,和分别是辅助数据集中两组样本的样本协方差矩阵: ; ;其中,;表示辅助数据集中未患A疾病的第一对照组数据的样本均值向量,即其中每个生物标记物的样本均值组成的向量,表示辅助数据集中已患A疾病的第一疾病组数据的样本均值向量,即其中每个生物标记物的样本均值组成的向量,表示辅助数据集中未患A疾病的第一对照组数据中的第个样本的个生物标记物组成的向量,表示辅助数据集中已患A疾病的第一疾病组数据中的第个样本的个生物标记物组成的向量,表示辅助数据集中未患A疾病的第一对照组数据中的样本量,表示辅助数据集中已患A疾病的第一疾病组数据中的样本量;最后,对优化问题所得估计的辅助数据集差异网络矩阵,进行对称化,假设对称位置元素为和,并且,则将元素的值保持不变,将元素的值修改为元素的值,最终对称后的差异网络矩阵: ,,其中,,;是指示函数,当括号内条件成立时取值为1,否则为0;获取目标数据集,所述目标数据集,包括:已患A疾病的第二疾病组数据子集和未患A疾病的第二对照组数据子集;基于已患A疾病的第二疾病组数据子集,生成第三协方差矩阵;基于未患A疾病的第二对照组数据子集,生成第四协方差矩阵;基于第三协方差矩阵和第四协方差矩阵的样本估计以及所述辅助数据集对应的差异网络,得到目标数据集与辅助数据集对应的差异网络之间的差异;所述基于第三协方差矩阵和第四协方差矩阵的样本估计以及所述辅助数据集对应的差异网络,得到目标数据集与辅助数据集对应的差异网络之间的差异,包括:基于目标数据集中对照组和疾病组两组样本的样本协方差矩阵,以及辅助数据集对应的差异网络,确定两个差异网络之间的差异,包括:定义目标数据集中的真实差异网络为:;其中,和分别为目标数据集中未患A疾病的第二对照组和第二疾病组数据中生物标记物的真实协方差矩阵的逆矩阵,即精度矩阵;假设辅助数据集中的真实差异网络与目标数据集中的真实差异网络具有相似性,定义相似性度量为,并通过约束来保证相似性;基于辅助数据集中差异网络的初始估计和两个数据集在真实差异网络间的差异矩阵,利用目标数据集的数据,获得差异矩阵的估计,具体如下: ;其中,是调节参数,和分别是目标数据集中两组样本的样本协方差矩阵;最后,所估计得到的差异矩阵为非对称矩阵,因此还要将其进行对称化,得到最终的目标数据集和辅助数据集的差异网络间的差异矩阵,具体如下:对于差异矩阵中对称位置元素,假设对称位置元素为和,并且,则将元素的值保持不变,将元素的值修改为元素的值,对称后的差异矩阵,;,,其中是指示函数,当括号内条件成立时取值为1,否则为0;将差异网络之间的差异与基于辅助数据集对应的差异网络进行相加,得到目标数据集对应的差异网络,基于目标数据集对应的差异网络,确定筛选的生物标志物。
全文数据:
权利要求:
百度查询: 山东大学 基于迁移学习和差异网络的生物标志物筛选方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。