昆明理工大学余正涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉昆明理工大学申请的专利融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115952794B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211373435.1,技术领域涉及:G06F40/284;该发明授权融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法是由余正涛;朱栩冉;张亚飞设计研发完成,并于2022-11-04向国家知识产权局提交的专利申请。
本融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法在说明书摘要公布了:本发明涉及融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,来解决汉泰敏感信息识别中双语敏感词难以对齐的问题。本发明首先,基于维基百科和社交媒体敏感数据构建汉泰双语敏感词典。然后,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图,增强文档的敏感特征和双语敏感特征对齐,并利用多语言预训练模型对文档节点和词节点进行表征。最后通过多层图卷积神经网络对输入文档进行编码,利用敏感信息分类器对文档进行分类预测。实验结果表明提出的模型在汉泰跨语言敏感信息识别任务上比通用的跨语言文本分类方法效果更好。
本发明授权融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法在权利要求书中公布了:1.融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,其特征在于:所述方法包括首先基于维基百科和社交媒体敏感数据构建汉泰双语敏感词典;然后,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图,增强文档的敏感特征和双语敏感特征对齐,并利用多语言预训练模型对文档节点和词节点进行表征;最后通过多层图卷积神经网络对输入文档进行编码,利用敏感信息分类器对文档进行分类预测; 所述构建汉泰跨语言异构图包括: Step3.1:使用汉泰跨语言敏感信息文本数据集的文档和文档共现词以及双语敏感词典的敏感词作为节点构建汉泰跨语言异构图结构,其中文档与文档、文档和词之间、敏感词之间均有不同的关系种类,包含文档与文档之间的翻译和相似关系,文档和词之间的词性关系,敏感词之间的词性关系; Step3.2:文档和文档的边:为了得到文档中所含的语义信息,并使汉语文档和泰语文档更好的进行跨语言迁移学习,设置了两种类型的文档关系边;首先是基于机器翻译的伪平行语料之间的关系,将汉语文档和泰语文档之间构建了对应的翻译边;其次,将汉泰双语文档,通过多语言预训练模型获得文档的向量表示之后,利用文档向量,计算文档之间的相似度; Step3.3:文档和单词的边:通过使用构建的双语敏感词典协助分词工具,对文档中的单词进行准确的切分,并使用POS-Tagger对单词进行词性标注,添加词性标签,将不同词性的单词通过词性关系与共现文档连接,构建不同类型的边; Step3.4:单词和单词的边:基于构建的双语敏感词表,对文档中切分出来的敏感词,将该敏感词语义相似的双语敏感词作为词节点,并通过词节点之间的边建立图结构,增加文档中的敏感信息权重,以及汉泰跨语言词级对齐和聚合。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励