买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:基诺创物(武汉市)科技有限公司
摘要:本发明公开了一种基于哥隆尺的基因序列纠错算法与系统。本发明基于哥隆尺的结构构建一个滑动窗口,在满足生物特性和纠错功能完备的前提下,设计一套高效且成本代价低的DNA存储的纠错码算法及系统。本发明具有以下优势:1.能够处理世界上已测序的任意规模的基因组序列,且能应对混合错误。2.面对长度为450万个碱基的大肠杆菌基因组序列,也具有较优的校验纠错能力。3.利用氨基酸与密码子映射关系中的信息冗余进行纠错信息嵌入,即不影响生物活性,也不会产生新的碱基序列,为未来DNA存储纠错的生物普适性提供了一种新的研究思路。
主权项:1.一种基于哥隆尺的基因序列纠错算法,其特征在于,包括编码和解码过程;其中,所述编码过程包括以下步骤:S110:编码前先确定用于存储纠错编码信息的基因,并根据基因的氨基酸长度根据规则选择一个最优哥隆尺,并将基因的起始密码子与终止密码子强制转换成指定的密码子;S120:根据S110选择的哥隆尺构造滑动窗口,对被保护的长DNA序列进行滑动扫描;S130:将S120中滑动窗口扫描到的碱基组合成一个短的子序列,对该子序列进行哈希,生成两个哈希值;选择一个存放纠错信息的基因,基因由一段氨基酸序列组成,设置一个与所选基因内氨基酸序列个数相同的数组,初始时数组内全为0;S140:将S130中产生的第一个哈希值映射到存储编码信息的基因中的一个氨基酸中,确定该氨基酸的位置下标,再将S130中的另一个哈希值累加到该位置下标所对应的数组的位置上;S150:重复S120~S140,直到被保护的长DNA序列全部扫描完;S160:将最终的存储编码信息的基因的氨基酸序列对应的数组中的数据按照密码子映射关系转换成一个确定的密码子,生成一个新的基因密码子序列;S170:将S160得到的新的密码子序列替换基因的原始序列;所述解码过程包括以下步骤:S210:读入待纠错解码的DNA序列,根据编码时标记的基因起始密码子与终止密码子找到存储纠错编码信息的基因;S220:根据基因的氨基酸长度按照规则选择一个与编码时相同的最优哥隆尺;S230:根据S220选择的最优哥隆尺构造滑动窗口;S240:利用滑动窗口对待评估解码的长DNA序列进行扫描,将扫描到的碱基组合成一个短的子序列,对该子序列进行哈希,生成两个哈希值;设置一个与存放纠错信息的基因的氨基酸序列长度相同的数组,初始时数组内全为0;S250:将S240中产生的第一个哈希值映射到一个与存储编码信息的基因的氨基酸等长的空白序列中的一个氨基酸位置,再另一个哈希值累加到对应位置下标的数组上;S260:重复S240和S250,直到待评估解码的长DNA序列全部扫描完;S270:将最终重新生成的一个氨基酸序列对应的数组中的数据按照密码子映射关系转换成一个确定的密码子序列;S280:将S270生成的新的密码子序列与找到的存储了编码信息的基因密码子序列进行比对,若相同氨基酸对应的密码子不相同,则进行一个标记,记作witness;S290:再次对待纠错的DNA序列进行哥隆尺滑动窗口扫描并进行哈希,若某次滑动窗口选择到的碱基组成的子序列的第一个哈希值映射到基因中的一个witness,则将滑动窗口刻度指向的碱基在原基础上增加数字1,表示打分增加1分;S300:重复S290,直到待纠错解码的所有序列都扫描完,统计待纠错序列中的所有碱基的打分情况;S310:对S300中得到的打分数组进行排序,选择得分最高的前若干个碱基,对其进行各种纠错尝试,在某次纠错尝试后重新对待纠错序列进行扫描哈希,计算witness,选择witness最小的那个方案作为本轮的纠错方案并进行纠错;S320:重复S240到S310,直到计算出的witness为0,则表示序列无错,纠错成功,返回纠错后的序列。
全文数据:
权利要求:
百度查询: 基诺创物(武汉市)科技有限公司 一种基于哥隆尺的基因序列纠错算法与系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。