买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天元大数据信用管理有限公司
摘要:本发明公开了网络词语采集方法及系统,属于自然语言处理技术领域,要解决的技术问题为:在无需大量标注的前提下、如何快速及时的从海量额网络文本中识别和提取具有代表性和独特性的网络词语。包括如下步骤:通过爬虫技术从多个网络平台中获取网络文本数据;通过自然语言处理工具对网络文本数据集进行预处理;以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征,并对当前的词语学习模型进行模型训练;对输出的词语特征进行筛选和验证,将通过筛选和验证的网络词语存储至网络词语库中;定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作,以更新网络词语库。
主权项:1.一种网络词语采集方法,其特征在于,包括如下步骤:数据采集:通过爬虫技术从多个网络平台中获取网络文本数据,并将网络文本数据存储至本地数据库中;数据预处理:通过自然语言处理工具对网络文本数据集进行预处理,得到预处理后网络文本数据;特征提取及模型训练:以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征,并结合当前预处理后网络文本数据以及预测的词语特征对当前的词语学习模型进行模型训练,所述词语学习模型用于以预处理后文本数据为输入,基于深度学习算法预测输出网络文本数据的词语特征;词语筛选:基于输出的词语特征、对输出的词语特征进行筛选和验证,将通过筛选和验证的网络词语存储至网络词语库中;网络词语库更新:定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作,以更新网络词语库。
全文数据:
权利要求:
百度查询: 天元大数据信用管理有限公司 网络词语采集方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。