一种试题知识点的标注方法、存储介质及设备

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学院软件研究所;中科南京软件技术研究院

摘要：本发明公开了一种试题知识点的标注方法、存储介质及设备；包括S1：确定试题与知识点间关系，构建试题‑知识点关系模型；S2：搜集各类学科试题并进行人工知识点标注，然后构建出知识点题库；S3：对知识点题库中内容进行预处理；S4：结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型，通过预处理后的试题文本进行特征提取，以实现对试题相关知识点进行标注的训练；S5：将训练完成后的试题知识点标注模型进行测试，然后应用到试题中知识点的识别标注。上述方案明确了试题、学科与知识点间的关系，以能够同时识别多门学科、多类别的知识点，无需再为各个学科单独构建模型，并对冷门知识点的预测也能保持较高准确率。

主权项：1.一种试题知识点的标注方法，其特征在于，包括以下步骤：S1：确定试题与知识点之间的关系，构建试题-知识点的关系模型；S2：搜集各类学科试题并进行人工知识点的标注，然后基于步骤S1所构建的关系模型构建出知识点题库；S3：对知识点题库中的内容进行预处理；具体为：S3.1：对试题中的文本进行清洗，去掉无用符号、停用词；S3.2：对试题中的文本进行分词，其中对于中文文本，把每个字和标点符号都作为一个“词”进行分割；对于英文文本，先划分出每个单词和标点，然后识别单词中的子词，并进行子词分割，将每个子词和标点都作为一个“词”；S3.3：标记试题中的文本边界，即在句子的头部加上[CLS]分类标记，句子的尾部加上[SEP]分隔标记；S3.4：生成固定长度的文本序列，即设定试题文本长度的最大长度值，记为max_len，对长度超过max_len的试题进行截断，长度不足的则进行填充，填充标记使用[PAD]；S3.5：生成序列编码，即通过查找词汇表将每个“词”映射为对应的整数编码；S3.6：对试题中的文本进行词嵌入，通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量，然后对试题中的文本进行段嵌入和位置嵌入；其中段嵌入表示词所属句子的信息，对于试题的知识点标注任务，词的来源即当前试题的文本，不涉及第二个文本序列，所以对于每个词段向量的每个位置均为0；位置嵌入表示每个词在句子中的位置信息，位置编号从1开始，遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入；最后将词嵌入、段嵌入、位置嵌入进行信息整合，这里采用对应位置元素相加的方式，得到预处理后的试题文本表示；S4：结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型，通过对步骤S3预处理后的试题文本进行特征提取，从而实现对试题相关知识点进行标注的训练；具体为：S4.1：基于BERT编码器融合词左右两个方向的语义信息，得到试题中文本上下文双向嵌入表达T＝[TCLS,T1,T2,...,Tn,TSEP]，其中TCLS是分类标记[CLS]所对应位置的上下文双向嵌入表达，TSEP是分类标记[SEP]所对应位置的上下文双向嵌入表达，Ti,i＝1,2...,n是各对应位置编码处的上下文双向嵌入表达；S4.2：由多距离上下文融合模块进一步融合上下文信息，利用CNN关注局部细节对特征进行提取，其中CNN神经网络使用了六类卷积核，大小分别为3×H,4×H,5×H,10×H,50×H,100×H，其中卷积核的第一维表示卷积窗口覆盖的上下文距离，即词的个数；第二维表示在整个词向量上进行卷积，H表示词向量的长度；S4.3：对不同卷积核输出的数据，使用LeakyReLU激活函数提取更丰富的非线性特征，然后使用KMaxPooling提炼特征；S4.4：最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平，得到整个试题中文本的特征；S4.5：将步骤S4.4提取到的整个试题中文本特征映射到标签空间，通过sigmoid激活层得到试题包含各个知识点的概率，然后选择交叉熵损失函数作为试题知识点标注模型的优化目标，实现对试题知识点标注模型的训练；S5：将训练完成后的试题知识点标注模型进行测试，然后应用到试题中知识点的识别标注。

全文数据：

权利要求：

百度查询：中国科学院软件研究所中科南京软件技术研究院一种试题知识点的标注方法、存储介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种拔插式安装的矿灯

下一篇：一种基于磁控溅射法制备的Mxene复合Ni/Co纳米薄膜、制备方法及应用

相关技术

一种拔插式安装的矿灯

一种基于磁控溅射法制备的Mxene复合Ni/Co纳米薄膜、制备方法及应用

一种柔性多线圈电感式压力传感检测系统及制作方法

电连接器

加工压缩机的包括旋转轴的工件的空气或气体轴承的肋或槽的方法及组装工件的部件的方法

在分布式基站架构中配置用于多播和/或广播服务的资源

钢渣固碳搅拌设备及其固碳工艺

用于远程脉诊的脉搏复现系统

一种用于冷却塔的清理装置

车辆结构健康监测方法、装置、设备、系统及车辆

一种用于地铁维护的数字镜像模拟系统及其模拟方法

一种适用于油冷叶片结构设计的新方法

方法相关技术

孔加工工具及其设计方法、制造方法以及评估方法_株式会社艾亚宝_201980072056.9

数据处理方法、组网方法、测试方法、系统、装置及设备_阿里巴巴集团控股有限公司_201911158773.1

模型训练方法、贴图确定方法、装置、设备_北京航空航天大学_202210488281.4

覆岩离层注浆方法和跑浆处置方法_中煤科工生态环境科技有限公司_202411157965.1

装置、系统与方法_纳诺威利有限公司_202080024198.0

图像编码/解码方法和图像数据的传输方法_LX半导体科技有限公司_202411317985.0

图像编码/解码方法和图像数据的传输方法_LX半导体科技有限公司_202411317984.6

一种短信加密方法及短信解密方法_中电科大数据研究院有限公司_202410991784.2

评价方法、推定方法、评价装置及综合评价装置_富士电机株式会社_201911248860.6

喷墨记录方法_富士胶片株式会社_202380029032.1

标注相关技术

一种政务大数据自动标注系统及方法_河北东软软件有限公司_202411397428.4

一种数据标注方法、装置、计算机设备及存储介质_上海商汤临港智能科技有限公司_202110355021.5

一种水下图像结构病害全自动标注方法及系统_人工智能与数字经济广东省实验室(深圳)_202411396491.6

基于矩形图案的标注样本生成方法、图像处理方法及装置_上汽通用五菱汽车股份有限公司_202410964087.8

基于弧形图案的标注样本生成、图像处理方法及装置_上汽通用五菱汽车股份有限公司_202410964089.7

一种文本标注方法及装置、电子设备、存储介质_浙江极氪智能科技有限公司_202310508163.X

一种汽车自动驾驶图片自动标注系统及方法_探步科技(上海)有限公司_202411099351.2

基于机器阅读理解的语义角色标注方法、装置及介质_浙江香侬慧语科技有限责任公司_202111211106.2

点云实例标注方法及装置、电子设备和介质_北京百度网讯科技有限公司_202110129685.X

全景视图的地理信息标注方法、装置、设备及存储介质_科学城(广州)数字科技集团有限公司_202410940879.1

存储相关技术

数据存储方法、存储设备及计算机可读存储介质_上海江波龙数字技术有限公司_202310500617.9

文件分片存储的方法、装置、设备及存储介质_柏域信息科技(上海)有限公司_202410017734.4

存储设备和存储设备的操作方法_三星电子株式会社_202410213124.1

存储系统和控制存储系统的方法_三星电子株式会社_202410411448.6

低温存储设备_江苏池丰科技有限公司_202420521421.8

存储器装置_爱思开海力士有限公司_202110195374.3

存储器装置的只读存储器(ROM)仿真存储器(REM)配置文件模式_美光科技公司_202011534929.4

半导体存储装置_东京毅力科创株式会社_202380028378.X

飞机壁板存储系统_武汉博锐机电设备有限公司_202410569722.2

电池能量存储系统_开放能源有限公司_201980055606.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种试题知识点的标注方法、存储介质及设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务