北京百度网讯科技有限公司孙钰清获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京百度网讯科技有限公司申请的专利试题文件筛选方法、模型训练方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114020904B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111182850.4,技术领域涉及:G06F16/353;该发明授权试题文件筛选方法、模型训练方法、装置、设备及介质是由孙钰清;邵世臣;李永恒;邹仁华;赵廷辉设计研发完成,并于2021-10-11向国家知识产权局提交的专利申请。
本试题文件筛选方法、模型训练方法、装置、设备及介质在说明书摘要公布了:本公开提供了一种试题文件筛选方法、模型训练方法、装置、设备及介质,本公开涉及人工智能技术领域,具体涉及目标识别的技术领域,可应用于试题文件筛选等场景。具体实现方案为:提取待识别的目标文件的多个维度的特征信息,目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度;基于多个维度的特征信息确定出目标文件是否属于试题文件的识别结果;当目标文件为试题文件时,从目标文件提取出至少一种预设的试题标签信息,基于试题标签信息对目标文件进行分类。上述过程可以提高文件的识别结果的准确率,试题文件的筛选过程可以自动完成,既提高了试题筛选的效率,又可以降低人工成本。
本发明授权试题文件筛选方法、模型训练方法、装置、设备及介质在权利要求书中公布了:1.一种试题文件筛选方法,包括: 提取待识别的目标文件的多个维度的特征信息,所述目标文件的维度包括标题维度、摘要维度、正文维度、文件类型维度和文件格式维度;其中,所述标题维度的特征信息至少包括标题关键词;所述摘要维度的特征信息至少包括摘要关键词;所述正文维度的特征信息包括高频词汇和或题目问句;所述文件类型维度的特征信息至少包括文件类型;所述文件格式维度的特征信息至少包括格式类型; 基于所述多个维度的特征信息确定出所述目标文件是否属于试题文件的识别结果; 当所述目标文件为试题文件时,从所述目标文件提取出至少一种预设的试题标签信息,基于所述试题标签信息对所述目标文件进行分类; 其中,所述提取待识别的目标文件的多个维度的特征信息,包括: 针对所述目标文件的正文维度,在待识别的目标文件的正文中提取出题目问句;其中,根据所述目标文件的正文中的文本分段方式、词语词性和题目问题的常见符号,在所述目标文件的正文中提取出所述题目问句; 将所述题目问句作为所述正文维度的特征信息; 针对所述目标文件的文件格式维度,检测出待识别的目标文件的格式类型;其中,所述格式类型包括文字处理文档、便携式文档格式、电子表格文档、演示文稿文档中的至少一个; 将所述格式类型作为所述文件格式维度的特征信息; 针对所述目标文件的文件类型维度,检测出待识别的目标文件的文件类型;其中,所述文件类型包括科技类、生活类、娱乐类、音乐类、历史类和考试类中的至少一个; 将所述文件类型作为所述文件类型维度的特征信息; 其中,所述从所述目标文件提取出至少一种预设的试题标签信息,包括: 所述从所述目标文件提取出地区信息、学段信息和科目信息中的至少一个作为试题标签; 所述基于所述试题标签信息对所述目标文件进行分类,包括: 基于所述地区信息、所述学段信息和所述科目信息中的至少一项对目标文件进行分类;所述地区信息包括学校、行政区中的至少一个;所述学段信息包括年级;所述科目信息包括试题科目; 所述方法还包括: 预先建立分类知识图谱,所述分类知识图谱中包含所述地区信息、所述学段信息和所述科目信息中的至少一项与分类类型之间的关系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京百度网讯科技有限公司,其通讯地址为:100085 北京市海淀区上地十街10号百度大厦2层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励