首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于孪生神经网络的半监督宏基因组分箱方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:复旦大学

摘要:本发明公开了基于孪生神经网络的半监督宏基因组分箱方法,属于宏因组学技术领域,该方法通过contig得到must‑link约束cannot‑link约束;然后对每个contig的k‑mer频率特征以及丰度特征进行提取;通过孪生神经网络模型从输入的must‑link约束和cannot‑link约束中进行学习;计算contig间的相似性,构造出一个稀疏网络,使用社团检测算法聚类,从稀疏网络中得到分箱的结果;该方法提高了分箱结果,并且提出了在不同样本数量的情况下,不同contig相似性的计算方式。

主权项:1.基于孪生神经网络的半监督宏基因组分箱方法,其特征在于,包括如下步骤:步骤一:通过contig获取must-link约束;进行物种注释,将注释到不同物种和不同属上的contig作为一个cannot-link对,得到cannot-link约束;步骤二:对每个contig的k-mer频率特征以及丰度特征进行提取;步骤三:用均方误差损失函数重构must-link约束和cannot-link约束,输入使用对比损失函数的孪生神经网络模型中进行学习;步骤四:计算contig间的相似性,构造出稀疏网络后使用社团检测算法聚类,从稀疏网络中获取分箱结果;步骤二中丰度特征定义为比对到contig上某个位置的reads个数在contig上的平均值;当分箱的过程中使用的样本数量≥5,软件使得丰度特征和k-mer频率特征在同一个数量级;当样本数量<5,则假设对比到contig上的每一个位置的reads的数量在整个contig上服从高斯分布,然后使用KL散度计算高斯分布间的相似性作为contig间的相似性,结合现有参考基因组的信息得到最终的丰度特征;计算contig间相似性的具体方法为:当使用的样本数量≥5,孪生神经网络的输入为k-mer频率特征以及丰度特征,直接计算孪生网络的特征表示的欧式距离,得到contig之间的相似性;当样本数量<5,孪生神经网络的输入仅为k-mer频率特征,只计算k-mer频率特征表示的欧式距离,然后假设比对到contig上的每一个位置的reads的数量在整个contig上服从高斯分布,使用KL散度计算高斯分布间的相似性,结合现有参考基因组的信息得到最终的contig间的相似性。

全文数据:

权利要求:

百度查询: 复旦大学 基于孪生神经网络的半监督宏基因组分箱方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。