买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种新闻人物的言论抽取方法、设备及介质,属于言论信息抽取技术领域,用于解决现有的新闻人物言论提取较为困难,缺乏结构化提取能力,且言论识别不准确,论元抽取的泛化能力较差,不利于对人物言论的舆情分析技术问题。方法包括:对采集的新闻文本数据进行内容分句处理,得到新闻分句数据;对新闻分句数据进行联合层级的标注与拆分处理,得到若干论元信息三元组数据;将言论抽取模板与论元信息三元组数据进行拼接,生成言论抽取训练样本;根据若干论元信息三元组数据的识别类型,建立人物言论抽取模型;通过训练更新后的人物言论抽取模型,对待抽取新闻文本进行言论事件的抽取,得到待抽取新闻文本的结果三元组数据。
主权项:1.一种新闻人物的言论抽取方法,其特征在于,所述方法包括:对采集的新闻文本数据进行内容分句处理,得到新闻分句数据;通过预设的文本标注工具,对所述新闻分句数据进行联合层级的标注与拆分处理,得到若干论元信息三元组数据,具体包括:基于新闻言论中的论元以及论元角色,确定出分支三元组类型;其中,所述分支三元组类型包括:人物-言论触发词-言论持有者类型以及内容片段-言论触发词-言论内容类型;所述人物与所述言论触发词均为论元,所述言论持有者表示所述人物与所述言论触发词之间的论元角色关系;所述内容片段与所述言论触发词均为论元,所述言论内容表示所述内容片段与所述言论触发词之间的论元角色关系;通过所述文本标注工具,对所述新闻分句数据中所选中的文本跨度进行标签添加,并通过所述分支三元组类型,将标签处理后的文本跨度内容进行论元类别的筛选处理,并确定出与所述论元相对应的论元角色关系;根据所述论元以及所述论元角色关系,对所述文本跨度进行标注处理,确定出论元信息三元组;其中,所述论元信息三元组包括:人物、言论触发词以及内容片段;基于所述论元信息三元组中的不同论元,将标注后的新闻分句数据进行基于所述标签下的拆分处理;将含有所述论元信息三元组的所述新闻分句数据拆分为多条文本内容相同且标注内容为单一论元的新闻分句样例,并确定为所述论元信息三元组数据;将预设的言论抽取模板与所述论元信息三元组数据进行拼接,生成言论抽取训练样本;根据若干所述论元信息三元组数据的识别类型,建立人物言论抽取模型;其中,所述识别类型包括:言论触发词识别、言论持有人物识别以及内容片段识别;对所述言论抽取训练样本进行数据集的增强处理,并将所述言论抽取训练样本进行批次交替,以完成对所述人物言论抽取模型的参数训练更新;通过训练更新后的人物言论抽取模型,对待抽取新闻文本进行言论事件的抽取,得到所述待抽取新闻文本的结果三元组数据。
全文数据:
权利要求:
百度查询: 中国传媒大学 一种新闻人物的言论抽取方法、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。