基于词向量表征的网页新词发现和解析方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西安理工大学

摘要：本发明公开的一种基于词向量表征的网页新词发现和解析方法，包括以下步骤：步骤1，网页原始数据预处理，得到预训练文本；步骤2，首先进行粗略分词处理，然后使用N‑gram模型来分别构建2‑gram、3‑gram的前缀字典树；步骤3，使用内部结合度多字互信息来度量候选词串的内部结合度；步骤4，使用左右邻接熵信息度量来确定上一步骤中的候选新词的边界；步骤5，利用余弦相似度原理来进行相似向量筛选进而扩充初始关键词词典；步骤6，解析待处理网页中的数据，把网页中的非结构化数据转存到一个预先设置的结构化数组列表里；步骤7，通过步关键词词典对结构化列表里的数据进行提取和整合，完成解析过程。

主权项：1.基于词向量表征的网页新词发现和解析方法，其特征在于，包括以下步骤：步骤1，网页原始数据预处理，即去掉原始数据中无用代码符号和代码，得到预训练文本；步骤2，对步骤1中的预训练文本进行粗略分词预处理，对预处理完的散串利用N-gram的方式来构建节点，构造前缀字典树，用于统计散串单词和词频次数；步骤3，利用步骤2中前缀字典树中存储的散串单词和词频信息，利用互信息度量来衡量两个散串构成词语的可能性，筛选出候选二元组；步骤4，对通过步骤3的候选二元组，使用左右信息熵来确定组合词语的左边界和右边界，并设置左右邻接熵的阈值，然后选择大于阈值的候选词串来构成初步新词集合；步骤5，对步骤4产生的初步新词集进行初步规则筛选，选出有效的新词词库，在经过分词软件形成的2-gram、3-gram词串中进行CBOW模型的词向量影射，接着根据余弦相似度原理，找到候选新词的相近词语，扩展领域新词词典；步骤6，解析待处理网页中的数据，依据网页标签携带信息，把网页中的信息数据按照网页机构化信息格式转存到一个预先设置的结构化数组列表里；步骤7，通过步骤5的关键词词典对步骤6中的二维列表里的数据进行定位，然后根据网页标签携带特征信息的特点，进行信息提取和整合，完成解析过程；步骤2的具体步骤为：步骤2.1，构造停用词库，采用jieba分词工具对步骤1中的预训练文本进行粗略分词处理；步骤2.2，将步骤2.1分词预处理得到的分词文本结果逐行读取文本，进行3-gram模型的组合构建；步骤2.3，遍历N-gram组建的词条，构造前缀词典，将词条作为键，词频作为对应的键值，遍历前缀词典，若前缀对应的键不存在，则将该前缀设为词典新的键，并将对应键值设置为0；最终得到散串单词和词频信息；步骤3的具体步骤为：步骤3.1，利用步骤2中构建的N_gram前缀字典树中存储的分词后的散串和词频信息，通过向候选词邻接元扩展的方法进行迭代统计；步骤3.2，利用步骤3.1构造出来的邻接组合词串，计算该候选新词与右邻接元之间的多字互信息值来对二元散串集合进行扩展，每个组合新词作为新的单元，若小于阈值，则停止向右扩展，若大于阈值，则继续向右扩展，当且仅当与右邻接元的互信息值均小于阈值，扩展停止；步骤4的具体步骤为：对通过步骤3的候选组合词集按照邻接熵公式进行过滤，设置左右邻接熵的阈值为0.7，计算公式score＝PMI+min左熵，右熵，当候选词串的右邻接元的熵值大于所设阈值时，右词边界确定，当左邻接元的熵值大于所设阈值时，左词边界确定，最后过滤掉包含数字和字母的新词串；所述步骤5的具体步骤为：步骤5.1，首先把步骤1中生成的预训练文本利用词向量技术将组合新词表示成稠密向量，作为模型训练的文本输入，分布式向量映射为一个连续的定长的稠密向量，可以体现词与词之间的关系；步骤5.2，在得到语料切分后的文本之后，将其转换为word2vec的训练文本格式，训练模型时使用的神经网络类型是CBOW模型，CBOW模型使用大量文本来创建高维的单词表示，捕获单词之间的关系，无需外部注释；步骤5.3，利用CBOW的三层模型结构，首先经过输入层，以contextw,w为例，其中contextW由w前后各C个词构成；输入层：包含contextw中2c个词的词向量vcontextw1,vcontextw2,...,vcontextw2c；投影层：将输入层的2c个向量做求和累加,输出层：对应一棵二叉树，以语料中出现过的词作为叶子结点，以各个词在语料中出现的次数当做权值构造出来的Huffman数，叶子节点共N＝D词典大小个，分别对应词典D中的每个词，非叶子节点为N-1个；步骤5.4，在训练结束后，从词汇表中得到每个单词对应的词向量，获得词向量模型；在一段文本中，任意一个词的语境由它的前N个词和后N个词组成，利用余弦相似度原理找出初步新词集的相近词语，两个词的语境越相似，那么这两个词就越相似，也就越相关，所以把求两个词的相似度的问题转换为求这两个词的语境的相似度的问题，最终得到选新词的相近词语；所述步骤7具体为：步骤7.1，利用标签的格式来进行信息的提取和识别：如果标签形式为文本标签，则直接进行提取，若标签形式识别为结构化表格标签，利用网页中的表格标签定位到相应位置，并依据提取信息内容在初步新词集合中的右边和下边，来进行定位和提取；步骤7.2，若碰到多标段表格信息提取，则依据两个关键词的位置来判断多标段的具体个数，然后依据步骤6的方法进行多标段的提取。

全文数据：

权利要求：

百度查询：西安理工大学基于词向量表征的网页新词发现和解析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于词向量表征的网页新词发现和解析方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务