买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:吉林大学
摘要:一种对空间转录组学数据进行空间域划分的方法属数据挖掘技术领域,本发明对基因表达数据集进行两种不同的预处理,使用空间位置信息构建邻接图,两者相乘可得到空间位置相关的基因表达,对其聚类,筛选其中高质量的结果作为伪标签,使用图神经网络完成伪标签半监督的空间域分类和自监督的基因重构训练。网络训练完成后,综合不同基因表达得到的空间域分类结果,然后得到空间域划分结果。通过解释训练好的空间域分类网络,可得到空间高可变基因。本发明主要解决当前空间域划分方法精细度不足,不够稳定和可解释性差的问题,能准确识别具有一定基因表达模式的空间区域,保留组织中复杂的精细结构,在不同平台的测序数据上表现稳定。
主权项:1.一种对空间转录组学数据进行空间域划分的方法,其特征在于,包括下列步骤:1收集空间转录组学数据样本,将测序得到的信息记为两个矩阵:基因表达矩阵和空间位置矩阵;基因表达矩阵是行为测序位点,列为被测基因,其元素表示该测序位点该基因转录组的表达量;空间位置矩阵是行为测序位点,列为物理空间的横纵坐标的矩阵;2对空间转录组的基因表达矩阵进行预处理,包括下列步骤:2.1删除在少于5个测序位点中表达的基因;2.2筛选N个高可变基因,默认取值为3000;2.3将每个测序位点中的基因总量标准化为10000;2.4将基因表达进行对数化,记为Xns;2.5将每个基因的表达,按单位方差和零均值进行缩放,记为Xs;3使用位置矩阵,计算每个测序位点之间的欧氏距离,对于每个测序位点,选取K个最近的邻居,构建邻接矩阵A;K的取值与测序技术有关,对于非单细胞分辨率的Visium测序数据,K取值为7,而对于Stereo-seq,Slide-seqV2等单细胞分辨率测序数据,K取值为15;4对测序位点进行预聚类,得到预聚类标签,包括下列步骤:4.1分别对步骤2.4的Xns和步骤2.5的Xs进行主成分分析,提取前20个主成分;将主成分与邻接矩阵相乘,得到具有空间感知的主成分,分别记为PCs和PCns;4.2使用mclust算法对步骤4.1得到的具有空间感知的主成分PCs和PCns进行聚类,划分为C类;4.3对于PCs和PCns的聚类结果,筛选每个测序位点被划分到其对应类别的概率超过μ的聚类结果分别记为Yns,Ys,对应的测序位点集合记为Vns,Vs;μ的默认取值为0.997;5对步骤2.5缩放后的基因表达Xns数据构建图神经网络,进行特征提取和空间域划分,包括下列步骤:5.1为步骤2.5的Xs构建用于节点分类的图神经网络fs·,包括两层图同构网络构成的Encoders·、一层全连接层构成的映射层和一层全连接层构成的分类头5.2将步骤2.5的Xs依次通过Encoders·、得到网络的分类结果即: 5.3对步骤4.3的测序位点集合Vns,计算预测结果与预聚类标签Ys之间的多分类交叉熵损失,对网络参数进行更新;6对未缩放的基因表达数据构建图神经网络,在部分高置信度的预聚类标签的监督下进行特征提取、空间域划分和基因表达重构,包括下列步骤:6.1为步骤2.4的Xns构建多任务图神经网络,网络需要完成空间域分类和基因表达重构两个任务;将负责空间域分类的网络记为fns·:包括两层图同构网络构成的编码器Encoderns·、一层全连接层映射层一层全连接层分类头完成基因重构任务的网络包括:一层全连接层映射层和由两层图同构网络构成的解码器Decoderns·;6.2按比例随机选取一部分基因添加扰动,包括下列步骤:6.2.1打乱基因列表,按比例αα的默认取值为0.8随机选取基因添加扰动,扰动包括替换噪声和可学习掩码;6.2.2打乱需要添加扰动的基因列表,按比例ββ的默认取值为0.05在中随机选取部分基因添加替换噪声,即随机替换为其他基因的表达;6.2.3剩余添加可学习掩码;可学习掩码掩盖被选中基因在所有节点上的表达;6.3将添加噪声后的Xns通过Encoderns·得到低维嵌入Z;将Z依次通过和得到空间域划分的预测结果将Z依次通过和Decoderns·得到重构后的基因表达即:Z=EncodernsXns,A 6.4对于步骤4.3得到的测序位点集合Vs中的测序位点,计算预测结果与预聚类标签Yns多分类交叉熵损失;对于其中的基因计算与Xns之间的自适应重构损失函数;将分类损失与重构损失进行加权求和得到总损失,使用适应性矩估计优化器更新网络权重;达到预先设定的更新次数后保存网络参数,预测结果和使用Xns+12作为误差计算的自适应权重,作为误差;对添加噪声计算加权误差作为重构损失;6.5然后仅依赖重构损失,使用适应性矩估计优化器更新网络权重,达到预先设定的更新次数后,保存重构的基因表达为修正后的基因表达;7使用聚类集成算法对步骤5和步骤6中得到空间域划分结果进行融合,得到最终的空间域划分结果,包括下列步骤:7.1根据空间域划分结果构建二分图,二分图的两类节点分别对应测序位点和两个簇类,簇类之间的从属包含关系构成连边;将二分图的连接关系转化为实对称邻接矩阵;7.2计算实对称邻接矩阵的拉普拉斯矩阵,取拉普拉斯矩阵的前top_num个特征向量使用K-means算法划分为C个簇;每个测序位点所属的簇类即为最终的空间域划分结果;8对每个空间域,通过解释训练好的空间域划分网络,得到空间高可变基因;所有空间域得到的空间高可变基因的并集,为该样本上的空间高可变基因,包括下列步骤:8.1读取步骤6.1中训练好的空间域划分网络fns·,固定其中参数,并构造一个维度与输入基因维度相同N维的可训练向量S,作为基因选择器;读取基因降噪后表达计算各基因在该空间域内的平均表达和其他位置的平均表达之差初始化基因选择器S;读取节点分类结果将之转化为二值标签当前空间域d的节点标签为1,否则为0;8.2将基因选择器S使用Sigmoid函数激活后,作为掩码与Xns相乘,输入空间域划分网络fns·,从得到分类结果即: 其中:⊙代表SigmoidS的每个值与Xns中的每一列基因相乘;8.3将与计算二元交叉熵分类损失计算L1损失以限制被选择的基因总数;计算信息熵损失以约束基因选择器取值离散化;计算对比损失以约束选出的基因能够区分该空间域和其他空间域;二元交叉熵分类损失L1损失信息熵损失对比损失求和后作为模型的总损失使用适应性矩估计优化器对基因选择器S权重进行更新,训练至基因选择器S收敛;8.4读取训练好的基因选择器S的权重,通过Sigmoid函数后,计算其均值与方差;选取超过均值加上ε倍方差的基因作为空间高可变基因。
全文数据:
权利要求:
百度查询: 吉林大学 一种对空间转录组学数据进行空间域划分的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。