首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于局部敏感哈希函数的DNA序列聚类方法、系统、电子设备及可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连大学

摘要:本发明公开了一种基于局部敏感哈希函数的DNA序列聚类方法、系统、电子设备及可读存储介质,涉及DNA存储数据重建技术领域;首先在DNA存储数据重建阶段使更接近原始参考序列的测序数据作为聚类时的初始簇中心,降低聚类过程中的计算误差。其次通过划分索引集和哈希映射方式对需要聚类的DNA测序数据进行降维,有效简化数据的表示形式和计算复杂性。然后通过在哈希误差列表上进行相似性检索能够容忍更多的序列错误,提高聚类的鲁棒性。最后更新每个簇的中心序列,并将莱文斯坦距离相近的两个聚类中心代表的簇进行合并。本发明能够在保证不增加编码密度的基础上,提高了聚类精度,保证了数据重建效率,从而实现更为高效和可靠的DNA数据存储。

主权项:1.一种基于局部敏感哈希函数的DNA序列聚类方法,其特征在于,包括以下步骤:将测序后的DNA序列按照重复出现的次数从高到低进行排序;对排序后的DNA序列按照序列长度差进行二次排序;使用特定大小的滑动窗口,将每一条DNA序列切割成长度为k的DNA片段,即k-mer;挑选若干个位置的k-mer以及该位置向左和向右偏移固定位置的k-mer,组成多个k-mer集合;获取每个k-mer集合中元素的局部敏感哈希值;将所有哈希值组合在一起,构成该序列的哈希草图;根据k值的大小自动获取一个哈希误差列表;挑选最前面的序列作为初始聚类中心;将该序列的哈希草图添加到核心索引集中;将其余所有序列的哈希草图与核心索引集中的元素进行相似性检索:如果两条序列哈希草图的差值在哈希误差列表中,则认为检索成功,这两条序列是相似的归为一类;当所有序列检索完毕后,得到每一个簇中各个元素的邻域样本数;将具有最多邻域样本数的序列作为该簇新的聚类中心;得到所有聚类中心之间的莱文斯坦距离;将小于设定阈值的簇合并成一个更大的簇,得到最终的聚类结果。

全文数据:

权利要求:

百度查询: 大连大学 一种基于局部敏感哈希函数的DNA序列聚类方法、系统、电子设备及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。