买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国人民解放军总医院第一医学中心
摘要:本发明提供一种基于人群队列多组学数据的疾病数据分析方法及系统,涉及医疗数据分析技术领域。所述方法包括:对收集的历史多组学数据进行数据预处理;根据数据预处理后的历史多组学数据建立综合分析数据框架,并通过数据之间的关联性和相互作用进行数据集成;利用相关性分析方法对数据集成后的历史多组学数据进行特征选择,并通过特征选择的结果构建生物网络模型;通过训练数据对生物网络模型进行模型训练获取生物网络模型结构评估指数,同时通过测试数据对生物网络模型的性能进行测试获取生物网络模型性能评估指数;通过满足预设要求的生物网络模型对收集的患者多组学数据进行分析得到患者多组学评估数据。本发明可提高数据分析效率。
主权项:1.一种基于人群队列多组学数据的疾病数据分析方法,其特征在于,包括以下步骤:S1,对收集的历史多组学数据进行数据预处理,所述数据预处理包括数据清洗、去除异常值、处理缺失数据和处理重复数据,所述历史多组学数据包括历史基因组学数据、历史转录组学数据、历史蛋白质组学数据和历史代谢组学数据;S2,根据数据预处理后的历史多组学数据建立综合分析数据框架,并通过数据之间的关联性和相互作用进行数据集成,所述综合分析数据框架用于批量处理历史多组学数据并将历史多组学数据进行整合;S3,利用相关性分析方法对数据集成后的历史多组学数据进行特征选择,并通过特征选择的结果构建生物网络模型;所述特征选择的具体方法如下:从数据集成后的历史多组学数据中提取特征,并使用相关性分析方法量化提取的特征的关联程度得到特征关联系数,所述特征关联系数用于衡量提取的特征之间的关联程度;根据得到的特征关联系数对提取的特征进行排序获取特征子集,并使用特征子集构建生物网络模型;根据交叉验证方法评估生物网络模型的特征选择能力得到特征参数,并判断得到的特征参数是否满足预设阈值,如果满足,表明特征选择结束,否则重新进行特征选择直至对应的特征参数满足预设阈值;S4,根据历史多组学数据的类别信息划分训练数据和测试数据,并通过训练数据对生物网络模型进行模型训练获取生物网络模型结构评估指数,同时通过测试数据对生物网络模型的性能进行测试获取生物网络模型性能评估指数,所述生物网络模型结构评估指数用于评估生物网络模型的结构,所述生物网络模型性能评估指数用于评估生物网络模型的性能;所述生物网络模型结构评估指数的具体获取方法如下:通过对生物网络模型的连接方式进行分析的结果设置预设网络拓扑数据,并通过对生物网络模型的输入特征信息进行分析设置预设功能特征数据,所述预设网络拓扑数据用于对生物网络模型的网络拓扑结构进行描述,所述预设功能特征数据用于描述生物网络模型提取和选择输入特征信息的能力;使用训练数据对生物网络模型进行模型训练以获得模型网络拓扑数据和模型功能特征数据,结合对应的预设网络拓扑数据和预设功能特征数据获取生物网络模型结构评估指数;所述生物网络模型结构评估指数采用以下公式进行计算: 式中,WQ表示生物网络模型结构评估指数,e表示自然常数,P0为预设网络拓扑数据,P表示模型网络拓扑数据,T0为预设功能特征数据,T为模型功能特征数据,a表示模型网络拓扑数据对生物网络模型结构评估指数的影响程度,b表示模型功能特征数据对生物网络模型结构评估指数的影响程度;所述生物网络模型性能评估指数采用以下公式进行计算: 式中,k表示生物网络模型性能评估指数,e表示自然常数,α表示生物网络模型的准确度,β表示生物网络模型的精确度,γ表示生物网络模型的召回率,α0表示的生物网络模型的准确度阈值,β0表示生物网络模型的精确度阈值,γ0表示生物网络模型的召回率阈值,Δα为准确度参考误差,Δβ为精确度参考误差,Δγ为召回率参考误差;S5,通过满足预设要求的生物网络模型对收集的患者多组学数据进行分析得到患者多组学评估数据,并对患者多组学评估数据进行可视化展示,所述患者多组学数据包括患者基因组学数据、患者转录组学数据、患者蛋白质组学数据和患者代谢组学数据,所述患者多组学评估数据表示通过患者多组学数据评估的生物性能情况;所述患者多组学评估数据的具体获取如下:对历史多组学数据进行基因分组得到历史基因组,并通过生物网络模型对得到的历史基因组中的历史多组学数据进行信息评估获取对应的基因组学信息数据参考值、转录组学信息数据参考值、蛋白质组学信息数据参考值和代谢组学信息数据参考值;对患者多组学数据进行基因分组得到基因组,并通过生物网络模型对得到的基因组中的患者多组学数据进行信息评估获取患者对应的基因组学信息数据、转录组学信息数据、蛋白质组学信息数据和代谢组学信息数据,同时结合对应的基因组学信息数据参考值、转录组学信息数据参考值、蛋白质组学信息数据参考值和代谢组学信息数据参考值获取患者多组学评估数据;所述患者多组学评估数据采用以下公式进行计算: 式中,m表示患者的编号,m=1,2,...,M,,M为患者的总数量,SJm表示第m个患者的患者多组学评估数据,h表示基因组的编号,h=1,2,...,H,H为基因组的总数量,表示第m个患者的第h个基因组的基因组学信息数据,表示第m个患者的第h个基因组的转录组学信息数据,表示第m个患者的第h个基因组的蛋白质组学信息数据,表示第m个患者的h个基因组的代谢组学信息数据,为第h个基因组的基因组学信息数据参考值,为第h个基因组的转录组学信息数据参考值,为第h个基因组的蛋白质组学信息数据参考值,为第h个基因组的代谢组学信息数据参考值,ε1为患者基因组学信息数据的修正因子,ε2为患者转录组学信息数据的修正因子,ε3为患者蛋白质组学信息数据的修正因子,ε4为患者代谢组学信息数据的修正因子。
全文数据:
权利要求:
百度查询: 中国人民解放军总医院第一医学中心 一种基于人群队列多组学数据的疾病数据分析方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。