首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于自然语言处理和随机森林的特钢生产锭型预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:冶金自动化研究设计院

摘要:一种基于自然语言处理和随机森林的特钢生产锭型预测方法,属于特钢生产一体化排产与报料技术领域。通过分析钢铁企业客户订单,提取有关锭型预测的关键特征,以锭型为预测目标变量,构建含有多个客户订单的大数据集。采用自然语言处理方法,将每个样本订单中特征属性中的文字或特殊符号转化为数字属性,并采用随机森林预测模型进行锭型预测,从而实现根据订单中的钢种、尺寸和工艺要求等信息,匹配出客户订单相对应的锭型类别与型号。优点在于,解决了因订单数据集样本特征中存在文本和数值混合问题而引发的锭型分类预测难题。

主权项:1.一种基于自然语言处理和随机森林的特钢生产锭型预测方法,其特征在于,具体步骤如下:步骤1:数据预处理;采集3000~5000条数量的客户订单,提取与锭型预测相关的特征,根据工艺规则对每个订单配置相应的锭型类别与型号,并将其作为目标变量;对数据进行清洗,删除错值坏值,修改错误格式,补充缺失值;分析样本数据的分布情况,通过手动匹配的模式,尽量使各类别的样本数量趋于均衡,从而构建出具有均衡样本量的大数据集;步骤2:对每个样本的目标变量进行编码,即对每条订单的锭型类别进行编码;因锭型类别有七种,属于多分类问题,故采用标签编码方式,将其数值化,即采用7种不同数值描述7中锭型;步骤3:自然语言处理针对特钢订单中的特征存在离散类别型、连续数值型和中文文本型三种形式的问题,采用自然语言处理方法,即不同的编码方法,将其转化为数字格式:采用N维稀疏向量表示数据集中的离散类别型特征,N表示统计类别总数,第N维维度上数值为1,其余N-1维上数值用0表示;对于连续数值型,“规格”特征,采用0-1标准化编码方式,使数据映射成区间为[0,1]的标准值,设x0代表原规格数值,x1代表标准化的规格,xmax代表规格中的最大值,xmin代表规格中的最小值,则对于订单里的文本类特征,使用词袋模型将其转化成以“词表空间”为维度的稀疏向量,抽取其中的信息;首先根据中文停用词词库去除其中的常见停用词,再去除无意义符号;然后使用前向后向最大匹配算法将被解析的“长文本”分解为若干个“词语”,然后采用TF-IDF方法进行编码;该编码方式的核心思想是通过配置权重表述“词语”的意义性,即对于那些出现频率很高但没有实际意义的词,赋予较小的权重,将其“置为0”,从而减少其对模型训练的影响;设集合T={t1,t2,t3···tn}为语料库中所有词语的集合,ti表示每个词语,集合D={d1,d2,d3···dk}为所有文章的集合,dj表示每篇文章;TF-IDF方法的模型如下: 其中,TFij为词频,IDFi为逆文档频率,nij为词语ti在文档dj中出现的次数,表示文档dj中词语数目之和;|D|为语料库中的文档总数,|Di|为包含关键词ti的文档总数目;最后,TF-IDF的值是这两个值的乘积值,即TFIDFi,j=TFij×IDFi3其中,TFIDFi,j为TF-IDF的值;将上述数字格式化后的特征组合起来;步骤4:使用交差验证的方式对样本切分训练集和测试集,选择80%为训练集,20%为测试集;步骤5:构建基于随机森林的锭型分类预测模型,并采用步骤4中构建的数据集,进行训练和验证。

全文数据:

权利要求:

百度查询: 冶金自动化研究设计院 基于自然语言处理和随机森林的特钢生产锭型预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。