首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种专家系统知识库构建方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安交通大学

摘要:本发明公开了一种专家系统知识库构建方法及系统,通过web前端收集制造企业运维过程中的设计和制造问题以及用户在使用过程中的反馈,对收集的文本进行中文分词训练,得到分词标记序列;通过Word2vec模型训练分词标记序列,生成词嵌入向量,构建基于词向量和权重的文本向量来表示特征数据;采用KNN算法的文本向量进行分类,将分类后的文本向量对应的特征数据通过专家系统知识库补全后存入反馈信息数据库;周期性的使用聚类算法对反馈信息数据库进行处理,构建完成专家系统知识库,本发明能够快速准确的构建出专家系统的知识库;实现制造业全过程优化。

主权项:1.一种专家系统知识库构建方法,其特征在于,包括以下步骤:S1、通过web前端收集制造企业运维过程中的设计问题、制造问题以及用户在使用过程中的反馈,采用基于深度学习算法的双向长短时记忆条件随机场模型对收集的文本进行中文分词训练,得到分词标记序列;S2、通过Word2vec模型训练步骤S1中的分词标记序列,生成词嵌入向量,然后通过基于类频方差改进TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示特征数据,具体为:S201、采用Word2vec模型对文本分词得到的标签序列进行训练,把分词后的文本转化成低维数值向量为词wi的词向量,k为词向量的维度;S202、采用改进型TF-IDF算法计算每个词向量在文本中的权重,考虑特征词在整个语料库中出现的频率和在不同类别中的分布情况,提取出特征词,特征词vecdi表示为: 其中,Vt为词语wi的词向量,tf为词语wi在文档d中出现频率,idf为词语wi在文档d中的逆向文档频率,τt,i为词语wi在文档di的类频方差;改进型TF-IDF算法具体为:tf-idf-τi,j=tf-idfi,j*τi其中,引入类频方差τi衡量词语在不同类别的分布情况如下: 其中,dfd,wi为文本库d包含词语wi的文档个数,dfdcj,wi为类别cj含词语wi的文档个数,N为文本类别数,τi为词wi的类频方差;S3、采用KNN算法对步骤S2处理得到的文本向量进行分类,将分类后的文本向量对应的特征数据通过专家系统知识库补全后存入反馈信息数据库,具体为:S301、新文本到达后,根据特征词确定新文本的向量;在训练文本集中选出与新文本最相似的k个文本,利用向量夹角余弦度量相似度;在新文本的k个邻居中,依次计算每类的权重,每类的权重等于k个邻居中属于该类的训练样本与测试样本的相似度之和;比较类的权重,将文本分到权重最大的那个类别中;S302、分类得到特征数据后,采用基于专家系统的产生式框架知识表示规则,将特征数据表示成具有条件行为结构的数据,并以框架表示为主体,将数据嵌入到框架中,使框架通过规则类找到相应的规则,规则类通过隶属框架名找到对应的框架,最后将处理过的数据存入反馈信息数据库;S4、周期性使用聚类算法对步骤S3的反馈信息数据库进行处理,构建完成专家系统知识库,具体为:S401、通过触发器设定周期,对反馈信息数据库采用聚类算法进行定期处理,从n个数据对象中任意选择k个对象作为初始聚类中心,剩下的数据根据与这些聚类中心的相似度,分别分配给对应的聚类,然后计算每个所获新聚类的聚类中心,不断重复该过程直到标准测度函数开始收敛为止;S402、设定聚类簇尺寸的阈值A和阈值B,对要存入知识库的数据进行判断;对未存入知识库的反馈数据,将聚类簇尺寸大于阈值A的数据直接存入知识库,聚类簇尺寸小于阈值A大于阈值B的数据经过人工确认决定是否再存入知识库;对新增加的知识,将其在反馈信息数据库中对应的记录添加标记。

全文数据:

权利要求:

百度查询: 西安交通大学 一种专家系统知识库构建方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。