重庆邮电大学钟时获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利文本数据处理方法及装置、文本数据检测方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119621984B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411739848.6,技术领域涉及:G06F16/353;该发明授权文本数据处理方法及装置、文本数据检测方法及装置是由钟时;王进;王世成;杨成设计研发完成,并于2024-11-29向国家知识产权局提交的专利申请。
本文本数据处理方法及装置、文本数据检测方法及装置在说明书摘要公布了:本发明涉及对比学习领域,特别涉及一种文本数据处理方法及装置、文本数据检测方法及装置,所述方法包括将多个领域的人造文本输入大模型工具按照启发式规则分别得到对应的AIGC文本,组成检测增强文本对,并通过多层级的编码器网络和对应多层级的辅助编码网络分别对检测增强文本对中的文本进行编码,并使用多层级知识保护对比学习损失函数优化编码器模型。本发明使编码器模型能够同时对多个领域的文本数据进行无领域语义混淆的高精度文本AIGC检测并能在保持原始知识分布细微变化的情况下拉开人造文本与AIGC文本之间的语义分布,实现插件式的检测领域拓展与检测精度增强。
本发明授权文本数据处理方法及装置、文本数据检测方法及装置在权利要求书中公布了:1.一种文本数据处理方法,其特征在于,所述方法包括: 获取多领域的人造文本,所述多领域的人造文本包括多个不同语言类型的文本数据;每个语言类型的文本数据分别对应多个不同领域类型的文本数据; 将多领域的人造文本输入到大模型中,输出多领域的AIGC文本;所述多领域的AIGC文本为每个人造文本按照启发式规则分别以文档粒度与语句粒度生成的; 按照启发式规则分别以文档粒度与语句粒度生成所述多领域的AIGC文本包括按照prompt提示,对文档数据采用翻译、润色和续写中一种或多种方式的组合,生成AIGC翻译文本、润色文本和续写文本中一种或多种方式的AIGC文本;对语句数据采用润色方式,生成语义粒度AIGC文本;所述文档数据为每个领域的人造文本;所述语句数据是按照高斯分布对语句粒度文本簇采样得到的;所述语句粒度文本簇是将每个领域的人造文本按照标点符号分句得到的; 采用待训练的编码器模型对每个人造文本和相应AIGC文本组成的增强文本数据进行特征提取,得到每一层级的人造文本编码向量与AIGC文本编码向量;所述编码器模型包括多层级的编码器网络和对应多层级的辅助编码网络;所述编码器网络包括多个层级的若干子网络层,所述辅助编码网络包括多个层级的若干辅助编码层,每一子网络层后连接有对应层级的辅助编码层; 基于至少两个同一层级的人造文本编码向量与AIGC文本编码向量构建对比学习损失,并基于所述对比学习损失对辅助编码网络的模型参数进行调整,得到训练后的编码器模型; 所述辅助编码网络包括一个辅助编码降维模块以及对应领域个数的辅助编码升维模块;所述辅助编码降维模块包括一个无偏置项的线性层,所述辅助编码升维模块包括一个有偏置项的线性层; 所述基于至少两个同一层级的人造文本编码向量与AIGC文本编码向量构建对比学习损失包括: 基于预设层级间隔选择部分同一层级的人造文本编码向量与AIGC文本编码向量; 根据同一层级的编码器网络生成的人造文本编码向量的分类头与辅助编码网络生成的人造文本编码向量的分类头之间的相似度,得到第一损失; 根据同一层级的辅助编码网络生成的人造文本编码向量的分类头与辅助编码网络生成的AIGC文本编码向量的分类头之间的相似度,得到第二损失; 根据多层辅助编码网络生成的人造文本编码向量的分类头向量组与多层编码器网络生成的人造文本编码向量的分类头向量组的乘积,得到第一矩阵; 根据多层辅助编码网络生成的人造文本编码向量的分类头向量组与多层辅助编码网络生成的AIGC文本编码向量的分类头向量组的乘积,得到第二矩阵; 根据第一矩阵的对角线文本对向量与多层编码器网络生成的人造文本编码向量的分类头向量组的乘积,得到第三损失; 根据第二矩阵与标签的交叉熵关系,得到第四损失。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励