基于Common Crawl数据的中文语料获取方法及系统

导航：龙图腾网> 最新专利技术> 基于Common Crawl数据的中文语料获取方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学院深圳先进技术研究院

摘要：本发明公开了一种基于CommonCrawl数据的中文语料获取方法及系统，该方法包括：使用正则表达式和BeautifulSoup从CommonCrawl数据库的WARC原始网页数据中提取HTML页面中的网页数据和文本；利用构建的网络黑名单从文本中过滤垃圾信息，过滤之后根据文本中每条数据中的url对数据进行合并；利用哈希算法对合并后的文本进行去重，去重后通过文本模型对中文文本进行质量筛选。该方法能够得到平衡的、高质量的中文语料。这种处理方式不仅提高了数据处理的准确性和效率，还为后续的文本分析和应用提供了可靠的数据基础。

主权项：1.一种基于CommonCrawl数据的中文语料获取方法，其特征在于，包括：使用正则表达式和BeautifulSoup从CommonCrawl数据库的WARC原始网页数据中提取HTML页面中的网页数据和文本；利用构建的网络黑名单从文本中过滤垃圾信息，过滤之后根据文本中每条数据中的url对数据进行合并；利用哈希算法对合并后的文本进行去重，去重后通过文本模型对中文文本进行质量筛选。

全文数据：

权利要求：

百度查询：中国科学院深圳先进技术研究院基于Common Crawl数据的中文语料获取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种可自动模块化管理的全方位监测装置

下一篇：一种数码印花烘干机

相关技术

一种可自动模块化管理的全方位监测装置

一种数码印花烘干机

一种煤粉灰装卸用降尘装置

一种可拼装的立体贺卡

一种便捷的数据故障检测记录仪

耐冲击不锈钢提纯罐

一种相机支架

一种防晃茶杯托盘

一种凹版印刷机用滚筒组件

一种工程测量设备

一种植被种植覆盖结构及输变电扰动区域植被覆盖系统

一种低温阀门在线检修工具

中文相关技术

一种中文命名实体识别方法、设备、介质及产品_广东石油化工学院_202410910692.7

一种基于伪孪生去噪网络的中文实体关系联合抽取方法_北京工业大学_202410798676.3

基于大数据的中文网页个性化精准分类系统_高从明_202410710621.2

一种基于嵌套编-解码网络的中文字体生成方法及系统_湘潭大学_202111664197.5

基于中文电子病历的实体关系联合抽取方法、网络、设备和计算机可读存储介质_大连理工大学_202210749641.1

一种构建中文智能问答系统的方法及装置_浪潮云信息技术股份公司_202410918580.6

一种面向文本审核的中文对抗样本生成方法及装置_北京中科闻歌科技股份有限公司_202011259475.4

基于偏旁特征嵌入的中文命名实体识别网络模型_哈尔滨工程大学_202210157121.1

一种基于BERT的中文ASR输出文本修复方法及系统_上海大学_202210434469.0

基于自适应生成对抗网络的中文字体风格迁移方法_合肥高维数据技术有限公司_202111429305.0

语料相关技术

语料选取方法、装置、电子设备及存储介质_广州汽车集团股份有限公司_202410784735.1

一种辅助语料标注方法、装置、设备及计算机存储介质_中国平安人寿保险股份有限公司_202110208697.1

多音字标注语料构建方法、装置、设备和介质_广州视源电子科技股份有限公司_202310457299.2

基于大语言模型的微调语料质量提升方法、装置及设备_上海智臻智能网络科技股份有限公司_202410866438.1

用于并入到审查媒体语料库中的媒体源度量_谷歌有限责任公司_202410806489.5

语料数据的序号识别处理方法、装置、设备和存储介质_腾讯科技(深圳)有限公司_202310429241.7

一种基于语料库的民俗词汇翻译系统及方法_临沂大学_202411052293.8

一种残缺语料的补全方法及装置_广东小天才科技有限公司_201910365369.5

确定目标语料的方法、装置、电子设备及存储介质_北京沃东天骏信息技术有限公司_202011401239.1

一种语料自动标注的方法、装置、存储介质及电子设备_中国科学院文献情报中心_202311695823.6

数据相关技术

数据处理装置和数据驱动装置_硅工厂股份有限公司_201911310542.8

基于虚拟数据和真实数据的机器学习_达索系统美国公司_202010329355.0

基于异常数据的大数据存储方法_江西孺智信息技术有限公司_202411081304.5

点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法_LG电子株式会社_202080069413.9

数据收集方法和装置_北京沃东天骏信息技术有限公司_202010047444.6

传输数据的传输设备_西门子交通有限责任公司_202080087774.6

双向数据链路_德克萨斯仪器股份有限公司_202410824850.7

一种具有可旋转数据线接头的数据线_深圳市泽熙数码科技有限公司_202420189095.5

一种基于数据-图像转换的光伏异常数据识别方法_东南大学_202410997230.3

优先级数据库的数据处理方法及装置_杭州迪普科技股份有限公司_202210175881.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于Common Crawl数据的中文语料获取方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务