首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于文本挖掘和风险评估的场地优先控制污染物筛选方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院南京土壤研究所;南京景鸿泽环境科技有限公司

摘要:本发明公开了基于文本挖掘和风险评估的场地优先控制污染物筛选方法,包括:搜集与污染物有关的文本信息数据;从文本中提取得到潜在污染物信息;初步建立污染物数据库,对污染物数据库进行清洗和标准化处理,生成结构化的污染物清单;使用匹配分析、频率统计的数据分析方法,识别不同来源清单中同种污染物的出现频率和参数指标;采用多维度综合评价方法,对污染物危害性、持久性和暴露风险等指标体系进行评分排序,确定优先控制的污染物名单。本发明为环境管理和污染物监控提供了一种系统化、全面的新工具,克服了现有技术的局限性。

主权项:1.基于文本挖掘和风险评估的场地优先控制污染物筛选方法,其特征在于,所述场地优先控制污染物筛选方法包括以下步骤:S1,从项目报告、国家标准、科学研究论文、国内外行业数据库多个来源搜集与污染物有关的文本信息数据,将采集的数据分为结构化数据、半结构化数据和非结构化数据三种类型;对于结构化数据,经数据清洗后直接生成结构化数据库;S2,对于非结构化数据,采用下述步骤进行处理:S21,对采集的文本信息数据执行预处理操作,包括但不限于格式规范化以及文本清洗;S22,利用自然语言工具包和大型语言模型,使用nltk模型对预处理后的文档数据进行初步关键词筛选,使用GPT-3.5模型对原始文本数据进行自动核对,并采用TF-IDF模型进行词频-逆文档频率分析,以识别文档中的潜在污染物关键词;对TF-IDF模型的权重结果与自动核对结果进行人工核对与判断,最终生成优化后的污染物初选清单表;S23,针对步骤S22中构建的污染物初选清单表,首先使用潜在狄利克雷分配模型进行聚类分析以识别和分类污染物主题,再使用Python程序对所有文档进行系统分类,并对pdf文档使用Python程序进行解析,使用GPT模型对解析后的文档进行污染物数据结构化处理,将结构化处理后的污染物数据保存在污染物初选清单表中;S3,结合结构化数据库中的数据和生成的污染物初选清单表,构建污染物数据库;S4,基于建立的污染物数据库,采用多维度综合评价方法对污染物进行评分排序;多维度综合评价方法的评价维度包括污染物的危害性评估和暴露评估,每个评价维度都由一组相关的参数指标构成,危害性评估通过检出浓度、检出频率、经口摄入致癌斜率因子和呼吸吸入单位致癌风险进行评估;暴露评估通过污染物的半衰期、辛醇水分配系数和EPA毒性分级;通过模型层次分析法进行加权或加和计算进行排序,根据总分值确定优先控制的污染物名单。

全文数据:

权利要求:

百度查询: 中国科学院南京土壤研究所 南京景鸿泽环境科技有限公司 基于文本挖掘和风险评估的场地优先控制污染物筛选方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。