浙江大学;浙江大学软件学院(宁波)创新与管理中心毛玉仁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学;浙江大学软件学院(宁波)创新与管理中心申请的专利一种基于关键标记基因的智能细胞类型注释方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121148497B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511612532.5,技术领域涉及:G16B50/10;该发明授权一种基于关键标记基因的智能细胞类型注释方法是由毛玉仁;宓禹;刘沛根;张梦菲;高云君设计研发完成,并于2025-11-06向国家知识产权局提交的专利申请。
本一种基于关键标记基因的智能细胞类型注释方法在说明书摘要公布了:本发明公开了一种基于关键标记基因的智能细胞类型注释方法,该方法利用参考数据库中已知的标记基因构建静态知识库,通过TF‑IDF方法为标记基因赋予细胞特异性权重,从而提高注释的准确性与可解释性。同时,在静态匹配不充分的情形下,本发明通过大语言模型理解文献并提取标记信息,实现对知识库的动态补全,克服传统知识库更新滞后的缺陷,具备良好的适应性与拓展性。此外,本发明在注释过程中融合静态与动态的匹配得分,实现更加鲁棒的细胞类型识别,适配多组织、多物种及新型细胞状态的注释需求,能够在参考知识不足或样本模糊的场景下实现高精度、可扩展的细胞类型注释,具备良好的通用性和实用性。
本发明授权一种基于关键标记基因的智能细胞类型注释方法在权利要求书中公布了:1.一种基于关键标记基因的智能细胞类型注释方法,其特征在于,包括如下步骤: 1获取单细胞表达数据矩阵,矩阵中的行对应细胞维度,列对应基因维度,矩阵中的元素值为特定基因在特定细胞中的表达值; 2对所述单细胞表达数据矩阵进行预处理,包括过滤低质量细胞、归一化表达矩阵、高变基因筛选; 3对预处理后的单细胞表达数据矩阵进行降维并执行聚类操作,得到多个细胞簇; 4对于任一细胞簇执行差异表达分析,获得该细胞簇相对于其他簇的差异表达基因集合; 5从参考数据库中获取已知细胞类型的标记基因集合,并构建静态参考知识库,具体实现方式如下: S51:获取参考数据库中所有的标记条目,每个条目包含标记基因及其对应的已知细胞类型信息; S52:对任一已知细胞类型对应的所有标记基因进行整合,构造已知细胞类型-标记基因列表条目,即为每个已知细胞类型建立其对应的标记基因集合; S53:根据以下表达式计算每个标记基因在已知细胞类型集合中的权重: 其中:对于任一标记基因g,为标记基因g在已知细胞类型集合中的权重,N为总的已知细胞类型数量,ng为包含标记基因g的已知细胞类型数量; S54:根据以下表达式计算特定标记基因在特定细胞类型上的TF-IDF权重: 其中:对于任一已知细胞类型c,为标记基因g在已知细胞类型c上的TF-IDF权重,为标记基因g在已知细胞类型c对应的标记基因集合中出现的频率; S55:将各已知细胞类型对应的标记基因集合以及TF-IDF权重信息存储至静态参考知识库; 6对于任一细胞簇,将该细胞簇的差异表达基因集合与静态参考知识库中的标记基因集合进行匹配,通过以下公式计算该细胞簇与各已知细胞类型的相似得分,并根据该得分对各已知细胞类型进行排序得到候选注释列表,列表中得分排名越高的已知细胞类型即代表当前细胞簇越可能为该细胞类型; 其中:为当前细胞簇与任一已知细胞类型的相似得分,D为当前细胞簇的差异表达基因集合,M为该已知细胞类型的标记基因集合,表示基因gene在该已知细胞类型上的TF-IDF权重; 7对于任一细胞簇,若其候选注释列表中的最高得分低于设定阈值,则触发动态知识扩展机制,获取与当前细胞簇差异表达基因集合相关的文献并提取新标记基因及其对应细胞类型,用以更新静态参考知识库; 所述动态知识扩展机制的具体实现方式如下: S71:根据该细胞簇的差异表达基因集合构建查询关键词,调用外部接口或通过网络爬虫获取与查询关键词最相关的前沿文献集合; S72:对获取的前沿文献集合应用大语言模型自动进行摘要提取,并识别文献中描述的标记基因与细胞类型的共现关系,以“标记基因-细胞类型”对的形式进行提取,作为潜在标记信息来源; S73:对提取得到的“标记基因-细胞类型”对进行统计筛选,过滤掉高频共现背景项,仅保留具有显著共现特征且具备语义上下文支持的“标记基因-细胞类型”对; S74:将筛选过后的“标记基因-细胞类型”对转换为结构化条目,并以“细胞类型-标记基因列表”的形式嵌入至静态参考知识库中; 8重新执行步骤6,综合前后两次得分结果,选择综合得分最高的已知细胞类型作为当前细胞簇的最终注释类型,并输出相关注释结果,具体地: 将当前细胞簇的差异表达基因集合与更新后静态参考知识库中的标记基因集合进行匹配,计算当前细胞簇与各已知细胞类型的相似得分,根据以下公式对前后两次得分进行融合,并根据融合后的最终得分对各已知细胞类型进行排序,取得分排名最高的已知细胞类型为当前细胞簇的最终注释类型; 其中:对于任一已知细胞类型c和任一细胞簇t,为基于更新前静态参考知识库计算细胞簇t与已知细胞类型c的相似得分,为基于更新后静态参考知识库计算细胞簇t与已知细胞类型c的相似得分,λ为设定的权重系数,为融合后的最终得分; 最后输出的相关注释结果包括每个细胞簇的最终注释类型、匹配的关键标记基因集合、得分矩阵、降维可视化图,从而生成注释过程文档以备回溯分析。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;浙江大学软件学院(宁波)创新与管理中心,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励