东南大学杨鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东南大学申请的专利一种面向社交平台的敏感文本检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116561318B 。
龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310617534.8,技术领域涉及:G06F16/353;该发明授权一种面向社交平台的敏感文本检测方法是由杨鹏;梁增玉;李乐翔;李冰设计研发完成,并于2023-05-29向国家知识产权局提交的专利申请。
本一种面向社交平台的敏感文本检测方法在说明书摘要公布了:本发明公开了一种面向社交平台敏感文本检测方法,如图1所示,方法包括以下步骤:步骤1:中文敏感文本数据预处理;步骤2:基于改进MLM掩蔽策略的数据增强;步骤3:基于多粒度交叉注意力的语义关联;步骤4:基于损失函数的分类纠偏。其中,掩蔽语言模型MaskLanguageModel简称为MLM。本发基于相似词替换的掩蔽策略,提高模型对中文文本的学习能力;使用多粒度交叉注意力编码机制增强敏感文本词级和字符级语义之间的关联性;构建整合先验知识的损失函数,提高模型的语义理解和文本分类质量。
本发明授权一种面向社交平台的敏感文本检测方法在权利要求书中公布了:1.一种面向社交平台的敏感文本检测方法,其特征在于,所述方法包括如下步骤: 步骤1:中文敏感文本数据预处理, 步骤2:基于改进MLM掩蔽策略的数据增强, 步骤3:基于多粒度交叉注意力的语义关联, 步骤4:基于损失函数的分类纠偏; 其中,步骤2:基于改进MLM掩蔽策略的数据增强,采用BERT模型对中文敏感文本数据进行嵌入表示,得到词向量;在BERT模型的基础上,引入基于相似词替换的掩蔽策略指导MLM子任务,采用全词掩蔽和N-gram方式掩蔽文本中的中文字词,实现对单个汉字或整个词语进行完整掩蔽;根据word2vec词向量结果筛选出词表中向量相似度最高的词语,并对N-gram分割的词语进行替换;最后,本策略对15%的输入词进行掩蔽,其中80%的标记被替换成相似词,10%的标记使用随机词掩蔽,10%的标记保持原词,实现数据增强,提高模型的学习能力和泛化能力; 步骤3:基于多粒度交叉注意力的语义关联,将数据预处理得到的分词和分字表示w和c作为输入向量,通过采线性变换得到词级矩阵Kw和Vw与字符级矩阵Kc和Vc,将词级矩阵Kw和Vw与字符级矩阵Kc和Vc进行交叉编码得到多粒度文本特征;经过多头注意力层之后,将词级语义编码结果Zw和字符级语义编码结果Zc送入残差连接和归一化层,残差连接层将一部分前一层的信息无差地传递到后一层;经过前馈神经网络得到词级和字符级语义编码结果Hw和Hc,最后对其进行矢量连接作为注意力层的输出结果,用多粒度交叉注意力编码机制充分挖掘不同粒度下的关键文本信息,增强敏感文本的语义关联性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:210096 江苏省南京市玄武区四牌楼2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励