买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州数说故事信息科技有限公司
摘要:本发明公开了一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质,所述方法包括:获取网络文本并按照时间段存储;对获取的网络文本进行均匀抽样得到样本集并对样本集进行预标注;对预标注后的文本集进行BIO格式的事件标注和因果关系标注;利用标注得到的数据对BERT+CRF模型进行训练;利用BERT+CRF模型对存储的网络文本进行因果事理提取,并形成预设格式的三元组;通过聚类算法将三元组聚类得到因果事理组;将得到的因果事理组进行遴选和约化处理,保存约化处理后的因果事理组。本发明提高了提取因果事理的准确性,减少了提取结果中的噪声数据,冗余数据和孤立数据,具有较高的可靠性。
主权项:1.一种基于海量数据的因果事理组提取方法,其特征在于,包括以下步骤:S1:获取网络文本并按照时间段存储;S2:对获取的网络文本进行均匀抽样得到样本集并对样本集进行预标注;所述对样本集进行预标注,即采用关键词和正则匹配的方式对每个样本是否包含因果关系做标注;S3:对预标注后的文本集进行BIO格式的事件标注和因果关系标注;S4:利用步骤S3标注得到的数据对BERT+CRF模型进行训练,并得到训练好的BERT+CRF模型;S5:利用训练得到的BERT+CRF模型对存储的网络文本进行因果事理提取,并形成预设格式的三元组;所述预设格式的三元组其格式为:“因”事件,因果关系系数,”果”事件,其中因果关系系数为0~1之间的概率值,表示“因”事件和”果”事件之间因关系的强弱;S6:对得到的三元组中的因事件和果事件进行量化编码得到因果事件的语义向量,利用语义向量计算三元组之间的余弦距离,以余弦距离为指标通过聚类算法将三元组聚类得到因果事理组;S7:将得到的因果事理组进行遴选和约化处理,保存约化处理后的因果事理组;将得到的因果事理组进行遴选和约化处理,保存约化处理后的因果事理组具体过程为:S701:判断因果事理组中三元组的数量,若三元组数量小于预设值或仅包含一个三元组则舍弃当前因果事理组;S702:若三元组数量大于或等于预设值,则取因果事理组中因果系数最大的三元组代表当前因果事理组,并将该三元组的因果系数更新为当前所在因果事理组内因果系数的均值,保存得到的因果事理组。
全文数据:
权利要求:
百度查询: 广州数说故事信息科技有限公司 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。