首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于文本语料的涉恐事件实体属性抽取系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:公安部第三研究所

摘要:本发明涉及涉恐事件提取领域,具体涉及一种基于文本语料的涉恐事件实体属性抽取系统及方法,包括:一数据采集模块,所述数据采集模块用以采集一网站网页的文本数据,一数据处理模块,用以对所述文本数据进行清洗;一文本分类模块,所述文本分类模块根据所述文本训练模块中的训练模型对清洗后的所述文本数据进行分类;一文本分解模块,用以对分类后的所述文本数据进行分解;一文本提取模块,用以对分解后的所述文本数据进行信息提取;一信息解析模块,用以对提取的所述信息进行解析。本发明涉恐领域事件实体属性的提取准确率、召回率更高,对同领域的文本预料具备可复用性,减少同领域模型训练的人工标注工作量。

主权项:1.一种基于文本语料的涉恐事件实体属性抽取系统,其特征在于,包括:一数据采集模块,所述数据采集模块用以采集一网站网页的文本数据;一数据处理模块,所述数据处理模块与所述数据采集模块连接,用以对所述文本数据进行清洗得到清洗后的所述文本数据;一文本分类模块,连接所述数据处理模块和一文本训练模块,所述文本分类模块根据所述文本训练模块中的训练模型对清洗后的所述文本数据进行分类,得到分类后的所述文本数据;一文本分解模块,与所述文本分类模块连接,用以对分类后的所述文本数据进行分解得到分解后的所述文本数据;一文本提取模块,与所述文本分解模块连接,用以对分解后的所述文本数据进行信息提取得到提取后的所述信息;一信息解析模块,与所述文本提取模块连接,用以对提取后的所述信息进行解析得到解析后的所述信息;一事件提取模块,与所述信息解析模块连接,用于对解析后的所述信息进行提取得到一涉恐事件知识库;所述非涉恐文本数据通过一正则表达式进行区分,所述正则表达式为使用单个字符串来描述、匹配一系列符合某个句法规则的字符串;所述文本训练模块基于朴素贝叶斯算法进行训练和交叉验证得到所述训练模型,所述朴素贝叶斯算法为基于贝叶斯定理与特征条件独立假设的分类方法;所述文本分类模块用于对清洗后的所述文本数据进行分词、去停词库和随机生成训练测试验证集的数据预处理工作,然后依据所述训练模型对预处理后的所述文本数据进行涉恐事件文本和非涉恐事件文本分类;所述文本分解模块将所述涉恐事件文本分解成标题、发布信息、新闻主体三部分,并运用一信息检索数据挖掘的常用加权技术算法抽取所述涉恐事件文本中的专有关键词形成一关键词库,然后对所述关键词库进行词性分类得到一带词性的涉恐专有词库;所述文本提取模块包括正则表达式解析、命名实体识别抽取和语义角色分析,所述正则表达式用于对所述涉恐事件文本中涉恐事件发生时间初步提取,所述命名实体识别用于对所述涉恐事件文本中恐怖组织、事件发生地点识别的初步提取,所述语义角色分析用于提取所述涉恐事件文本句子中的三元组;所述信息解析模块包括主语谓语宾语关系解析、定语后置动宾关系解析、人名地名机构解析和介宾关系主谓动补解析。

全文数据:

权利要求:

百度查询: 公安部第三研究所 一种基于文本语料的涉恐事件实体属性抽取系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。