Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种单细胞分化轨迹推断方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明公开了一种单细胞分化轨迹推断方法,涉及细胞分化轨迹分析技术领域,本方法基于DNA序列和RNA序列进行建模,同时预测染色质可及性和基因表达状态,并整合成对的单细胞多组学数据,将分类器的权重作为两种组学的细胞低维特征,利用对比学习学习其中的细胞异质性,提高单细胞的聚类准确率,进而构建准确的单细胞的分化轨迹。本方法采用轻量级深度学习模型,避免了当前众多基于编码解码器结构的单细胞数据融合模型训练困难的尴尬处境,还可以提高数据处理效率。本方法考虑到细胞异质性对于单细胞多组学数据融合的影响,利用对比学习,能够更精准地刻画多组学数据中的单细胞特征,为准确聚类打下基础。

主权项:1.一种单细胞分化轨迹推断方法,其特征在于,包括以下步骤:S1、从scRNA-seq数据中提取DNA序列并将其转录为RNA序列;从scATAC-seq数据中提取DNA序列;S2、将转录得到的RNA序列和从scATAC-seq数据中提取得到的DNA序列分别编码为独热编码矩阵,对应得到DNA序列编码矩阵和RNA序列编码矩阵;S3、将DNA序列编码矩阵和RNA序列编码矩阵进行拼接,得到拼接矩阵;S4、通过堆叠的卷积神经网络分别获取DNA序列编码矩阵的特征、RNA序列编码矩阵的特征,以及拼接矩阵的特征;S5、将DNA序列编码矩阵与其特征进行拼接,得到DNA融合特征;将RNA序列编码矩阵与其特征进行拼接,得到RNA融合特征;S6、通过门控网络将DNA融合特征与拼接矩阵的特征进行融合,得到DNA混合特征;通过门控网络将RNA融合特征与拼接矩阵的特征进行融合,得到RNA混合特征;S7、将DNA混合特征与DNA序列编码矩阵进行残差连接,得到scATAC-seq数据的序列嵌入;将RNA混合特征与RNA序列编码矩阵进行残差连接,得到scRNA-seq数据的序列嵌入;S8、将scATAC-seq数据的序列嵌入作为门控网络中分类器的输入,获取染色质可及性预测概率值;将scRNA-seq数据的序列嵌入作为门控网络中分类器的输入,获取基因表达状态的预测概率值;S9、对门控网络中分类器的权重进行对比学习,并基于真实概率值和步骤S8得到的预测概率值,构建损失函数对门控网络进行训练,并将训练后的门控网络中分类器的权重中的向量作为scATAC-seq数据和scRNA-seq数据在门控网络训练过程中所使用的细胞的最终特征向量;S10、对细胞的最终特征向量进行聚类,根据聚类结果构建单细胞的分化轨迹;堆叠的卷积神经网络包括7层卷积结构,第一层卷积结构的计算表达式为: 其中为第一层卷积结构的输出;,表示DNA序列编码矩阵,表示RNA序列编码矩阵,表示拼接矩阵;和分别为第一层卷积结构的权重和偏置;为GLUE激活函数;表示1×1卷积操作;表示批标准化;第二至第七层卷积结构的计算表达式为: 其中为第层卷积结构的输出,当取值为7时,即为与输入对应的特征,;为第层卷积结构的输出;和分别为第层卷积结构的权重和偏置;表示最大池化操作;获取DNA混合特征和RNA混合特征的表达式为: 其中,为DNA混合特征,为RNA混合特征;,为DNA融合特征,为RNA融合特征;和均为权重;和均为偏置;为拼接矩阵的特征;为softmax激活函数;为GLUE激活函数;获取scATAC-seq数据的序列嵌入和scRNA-seq数据的序列嵌入的表达式为: 其中,为scATAC-seq数据的序列嵌入,为scRNA-seq数据的序列嵌入;和均为权重;和均为偏置;,为DNA序列编码矩阵,表示RNA序列编码矩阵;门控网络中分类器的表达式为: 其中,为染色质可及性预测概率值;为基因表达状态的预测概率值;,为处理序列嵌入的分类器的权重,为处理序列嵌入的分类器的权重;,为处理序列嵌入的分类器的偏置,为处理序列嵌入的分类器的偏置;为sigmoid激活函数;对门控网络进行训练的具体方法包括以下子步骤:S9-1、随机初始化门控网络中的权重和偏置,将作为scATAC-seq数据的细胞表达矩阵,使中每一个向量表示一个细胞的特征向量;将作为scRNA-seq数据的细胞表达矩阵,使中每一个向量表示一个细胞的特征向量;S9-2、将当前中第类细胞对应的所有特征向量在向量维度上平均,并将平均后的结果作为第类细胞的DNA细胞原型;将当前中第类细胞对应的所有特征向量在向量维度上平均,并将平均后的结果作为第类细胞的RNA细胞原型;进而得到scATAC-seq数据和scRNA-seq数据在门控网络训练过程中所使用的细胞的两种细胞原型;S9-3、计算在scATAC-seq数据和scRNA-seq数据在门控网络训练过程中所使用的非类细胞的原型与的距离向量;对应的表达式为: 其中为scATAC-seq数据和scRNA-seq数据在门控网络训练过程中所使用的细胞类型总数;为温度系数;表示第种非类细胞;表示以自然常数e为底的指数函数;S9-4、计算第类细胞当前对应的各个细胞原型之间的距离向量;对应的表达式为: ;S9-5、构建损失函数获取门控网络的总损失值,并通过总损失值对门控网络的权重和偏置进行更新,直至损失函数收敛;其中损失函数的表达式为: 其中为门控网络的总损失值;为对比学习损失值;表示单个细胞的特征向量中第个元素;表示单个细胞的特征向量中元素的总个数;表示以自然常数e为底的对数函数;为细胞染色质可及性对应的二分类交叉熵损失值;表示第类细胞染色质可及性真实概率值;表示第类细胞对应的染色质可及性预测概率值;表示第类细胞基因表达状态的真实概率值;表示第类细胞基因表达状态的预测概率值;表示以10为底的对数函数;为细胞基因表达状态对应的二分类交叉熵损失值。

全文数据:

权利要求:

百度查询: 四川省计算机研究院 成都信息工程大学 一种单细胞分化轨迹推断方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。