买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京邮电大学
摘要:一种面向中文小说领域的文本内容审核方法,包括:获取敏感词及所属类别,构建敏感词库;通过字符串匹配算法,检测待审核文本是否包含敏感词,如果是,则待审核文本是违规文本,且分类是敏感词所属类别,如果否,则继续下一步;设置多个违规分类标签,构建并训练小说文本内容审核模型,然后将待审核文本输入模型中,其工作流程如下:计算输入文本的语义特征向量和每个违规分类标签的信息特征向量,再计算输入文本和每个违规分类标签的相关语义特征向量,最后采用胶囊网络对相关语义特征向量聚类,根据顶层胶囊的每个违规分类标签的类别概率确定输入文本的分类。本发明属于信息技术领域,能实现中文小说文本内容自动审核,并提高审核准确率及效率。
主权项:1.一种面向中文小说领域的文本内容审核方法,其特征在于,包括有:步骤一、获取敏感词及所属类别,并构建敏感词库;步骤二、通过字符串匹配算法,检测待审核的中文小说文本是否包含有敏感词库中的敏感词,如果是,则待审核的中文小说文本是违规文本,且其审核分类是所包含敏感词的所属类别,本流程结束;如果否,则继续下一步;步骤三、设置多个违规分类标签,预先构建、并训练小说文本内容审核模型,然后将待审核的中文小说文本输入训练好的小说文本内容审核模型中,最后输出文本审核分类结果,小说文本内容审核模型的工作流程如下:首先通过神经网络编码得到输入的中文小说文本的语义特征向量和每个违规分类标签的信息特征向量,然后采用向量投影的计算方式,获得输入的中文小说文本和每个违规分类标签的相关语义特征向量,最后采用胶囊网络对输入的中文小说文本和所有违规分类标签的相关语义特征向量进行聚类,根据顶层胶囊计算得到的对应于每个违规分类标签的类别概率确定输入的中文小说文本的审核分类,敏感词库还包括有敏感拼音词库和敏感形近词库,步骤一进一步包括有:步骤11、获取多个敏感词表,设置敏感词表中每个敏感词的所属类别,然后将敏感词表中的所有敏感词作为原始敏感词构成敏感词库;步骤12、查询汉字拼音表,获取敏感词库中的每个原始敏感词的拼音,然后由所有原始敏感词的拼音构成敏感拼音词库;步骤13、将敏感词库中的所有原始敏感词拆分成多个单独的字,并由拆分后的所有字构成敏感字种子集合,然后获取多个汉字作为候选字构成候选字集合,计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度,挑选出相似度大的候选字作为每个敏感字的形近字,由每个敏感字的所有形近字构成每个敏感字的形近字集合;步骤14、根据敏感词库中的原始敏感词的汉字组成关系,从构成每个原始敏感词的敏感字的形近字集合中分别挑选一个形近字以组成一个新的敏感词,然后将新的敏感词写入敏感形近词库中,且新的敏感词的所属类别是其对应的原始敏感词的所属类别,这样,步骤二还包含有:检测待审核的中文小说文本是否包含有敏感拼音词库和敏感形近词库中的敏感词,步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度,进一步包括有:步骤131、采用编辑距离算法,计算敏感字A和候选字B的拼音相似度,计算公式如下:其中,EditDisA,B为敏感字A和候选字B的拼音之间的最小编辑次数,统计的编辑方式包括删除一个字符、增加一个字符和修改一个字符,LA、LB分别是敏感字A、候选字B的拼音长度;步骤132、设置笔形映射表,笔形映射表中包含有每个汉字笔形和其编码数字的映射关系,分别取敏感字A、候选字B的左上角、右上角、左下角、右下角以及右下角上方共五个位置的笔形,读取笔形映射表查询五个位置笔形各自对应的编码数字,组成敏感字A和候选字B的四角编码,然后计算敏感字A和候选字B的字形相似度:其中,encA、encB分别是敏感字A、候选字B的四角编码,Count函数表示逐位计算两个四角编码的异同,当其中一位相同则结果加1,不同则结果加0,该函数结果的取值范围为[0,5];步骤133、将汉字的所有结构类型分别编号,所述结构类型包括有:独体字、左右结构、上下结构、左中右结构、上中下结构、左上包围结构、右上包围结构、左下包围结构、上三包围结构、下三包围结构、左三包围结构、全包围结构、镶嵌结构、品字结构和田字结构,并获取敏感字A、候选字B的结构编号HA、HB,然后计算敏感字A和候选字B的结构相似度: 步骤134、计算敏感字A和候选字B的笔画相似度,其计算公式如下:其中,NA、NB分别是敏感字A、候选字B的笔画总数;步骤135、在大规模中文语料上训练Bert模型得到预训练语言模型,所述预训练语言模型的输入是字,输出是输入字对应的字向量,然后计算敏感字A和候选字B的语义相似度:其中,EA、EB分别是敏感字A、候选字B的字向量,||EA||和||EB||分别是EA和EB的模,对于预训练语言模型中未出现过的生僻字,则其语义相似度默认置为0;步骤136、计算敏感字A和候选字B的相似度:sim=α1sim1+α2sim2+α3sim3+α4sim4+α5sim5,其中,α1、α2、α3、α4、α5分别是拼音相似度、字形相似度、结构相似度、笔画相似度、语义相似度的权重参数,步骤三中的小说文本内容审核模型的工作流程进一步包括有:步骤31、构建语义特征模型,语义特征模型由一个中断循环神经网络DRNN构成,并采用双向门控循环神经网络BiGRU作为DRNN的循环神经单元,分别计算前向和后向网络t个时刻的隐藏层输出,对于每一个时刻,将前向和后向的隐藏层输出向量进行求和从而获得该时刻的特征向量,最后输出的t个时刻的特征向量即是输入的中文小说文本的语义特征向量;步骤32、从预训练好的Bert语言模型中查找每个违规分类标签中所包含词汇的词向量,若没有对应的词向量,则查找词汇拆分成字后的字向量,对所有字向量求和平均来表示词向量,然后将每个违规分类标签的词向量输入一个全连接神经网络,最后输出的向量即是每个违规分类标签的信息特征向量;步骤33、计算输入的中文小说文本和每个违规分类标签的相关语义特征向量: 其中,xj是输入的中文小说文本的第j个语义特征向量,j∈[1,t],yi是第i个违规分类标签的信息特征向量,Projxj,yi是输入的中文小说文本的第j个语义特征向量和第i个违规分类标签的相关语义特征向量;步骤34、构建胶囊网络,所述胶囊网络包含一个卷积胶囊层和一个全连接胶囊层,胶囊网络的处理流程如下:输入的中文小说文本和每个违规分类标签的每一个相关语义特征向量都是卷积胶囊层的一个输入胶囊,卷积胶囊层的输出胶囊是全连接胶囊层的输入胶囊,每个全连接胶囊层的输出胶囊对应一个分类类别,输出胶囊称为顶层胶囊,即每个顶层胶囊的模长对应一个违规分类标签的类别概率,每层胶囊网络从输入胶囊到输出胶囊的特征传递过程使用动态路由的方式进行计算,最后根据顶层胶囊对应的类别概率确定输入的中文小说文本的审核分类。
全文数据:
权利要求:
百度查询: 北京邮电大学 一种面向中文小说领域的文本内容审核方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。