买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:淮阴工学院
摘要:发明公开了一种基于bert模型的高校导师推荐管理方法,包括:使用爬虫爬取高校官网提供的教师基本信息以及研究方向数据;进行数据清洗,去除无效数据以及不能够进行分析的数据,抽取对应实体构建教师知识图谱,定义问答语句完善分类的训练集,添加自定义分类使用bert模型进行训练并得到分类模型,将用户输入问题添加到测试集进行测试,得到分类准确度并确定数据检索方向;对用户输入信息进行自然语言处理得到搜索关键信息,使用对应结果进行查询;封装结果供前台使用,进行数据的可视化展示以及推荐问答功能的使用;对查询的教师相似研究方向使用欧几里得距离相似度公式进行相似度的计算,对计算查询出的结果取前十项进行展示。
主权项:1.一种基于bert模型的高校导师推荐管理方法,其特征在于,具体步骤如下:1爬取院校教师数据,得到原始数据集G1,定义教师实体数据集G2;2使用python脚本处理数据集G1,得到可使用数据集M1,抽取数据集M1的属性,构建教师实体数据集G2;3抽取数据集M1的属性,标注二分类训练集T1,使用bert分类模型进行训练,得到分类模型V1,将用户输入信息表示为测试集T2,调用模型识别测试集T2的数据,得到分类准确度V2,根据输出准确度集合R1进行处理;4使用jieba分词的自定义词库以及停用词库进行信息处理,实体识别;5根根据分类模型V1识别得出数据检索路径,比较准确度,得到查询教师数据集S,将数据以json格式返回给网站进行展示;6开放系统调用接口,系统处理用户查询信息并根据信息抽取实体进行构造,将检索到的实体数据进行扩展,WEB应用程序通过ECharts渲染教师实体数据和实体间关系数据,提供用户教师实体数据可视化;所述步骤3中抽取数据集M1的属性,标注二分类训练集T1,使用bert分类模型进行训练,得到分类模型V1,将用户输入信息表示为测试集T2,调用模型识别测试集T2的数据,得到分类准确度V2,根据输出准确度集合R1进行处理的具体步骤如下:3.1定义高校导师信息数据集Gti={Gt1,Gt2,Gt3,Gt4,Gt5,Gt6},其中Gt1,Gt2,Gt3,Gt4,Gt5,Gt6分别代表教师信息的唯一标识符,姓名,学校名称,院系名称,研究方向,项目经历,其中i∈[1,H];3.2按照train_prop,val_prop,test_prop的比例划分数据集R,设定train_prop=6,val_prop=2,test_prop=2;分别计算训练集总数train_num=sum_R*train_proptrain_prop+val_prop+test_prop、验证集总数val_num=sum_R*val_proptrain_prop+val_prop+test_prop以及测试集总数trest_num=sum_R*test_proptrain_prop+val_prop+test_prop,得到Train_R={R1,R2,…,Rtrain_num},Val_R={R1,R2,…,Rval_num}和Test_R={R1,R2,…,Rtest_num};3.3定义类InputExample用来表示数据,初始化变量guid、text和label,分别表示训练id、字和字对应的标签;3.4定义类DataProcessor用于数据处理,编写的继承类SchoolNerProcessor,定义get_labels函数用来返回实体标签集,定义_create_example函数用于调用类InputExample给guid,text及label赋值,生成训练和验证样本;3.5定义函数model_builder,构建模型SchoolEntityModel,实现以下内容:将text与label转换为ids表示,使用参数加载BERT模型,得到字embedding和最大序列长度max_seq_length,使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths,定义变量num_labels为数据集L中的标签数量,利用BERT模型参数作为SchoolEntityModel模型的参数初始值,加载BiLSTM-CRF模型,输入模型参数embedding,num_labels,max_seq_length,lengths,label集合labels并设置模型参数lstm维度为128,droupout_rate为0.5;定义模型评测方法metric_eval,对模型的输出结果使用Viterbi解码;3.6利用TensorFlow将字标注数据集Train_R转化为数据文件train.tf_record,读取该数据文件组成batch;3.7训练BERT-BiLSTM-CRF模型,其中模型参数设置BERT预训练模型路径,训练时批量处理数据集的大小为32,学习率为2e-5;3.8得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。
全文数据:
权利要求:
百度查询: 淮阴工学院 一种基于bert模型的高校导师推荐管理方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。