厦门大学陈怡疆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学申请的专利一种基于可随机访问的点互信息的词表示学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115952807B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211623207.5,技术领域涉及:G06F40/44;该发明授权一种基于可随机访问的点互信息的词表示学习方法是由陈怡疆;林海;苏畅设计研发完成,并于2022-12-16向国家知识产权局提交的专利申请。
本一种基于可随机访问的点互信息的词表示学习方法在说明书摘要公布了:一种基于可随机访问的点互信息的词表示学习方法,涉及自然语言处理。A.准备大规模无标注文本语料库;B.扫描所述语料库并统计词对得到词共现矩阵;C.用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问,得到该矩阵的元素的近似值;D.用随机访问得到的词共现矩阵的元素的近似值计算点互信息;E.基于点互信息计算注意力权重,将注意力权重应用于Skip‑gram或GloVe模型词表示学习得到目标词表示。提出点互信息注意力权重算子,提出适合Skip‑gram和GloVe模型的注意力机制,针对计算点互信息时使用的共现矩阵过大无法完整载入内存,提出随机访问方法。获得更高质量的词表示。
本发明授权一种基于可随机访问的点互信息的词表示学习方法在权利要求书中公布了:1.一种基于可随机访问的点互信息的词表示学习方法,其特征在于包括以下步骤: 步骤A.准备大规模无标注文本语料库; 步骤B.扫描所述语料库并统计词对,得到词共现矩阵; 步骤C.用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问,得到该矩阵的元素的近似值,包括: C1.使用所述词共现矩阵、GloVe模型以及公式1训练得到词向量和词向量偏置; 训练GloVe模型的损失函数,如下所示: 其中,vi、bi表示第i个词的词向量和词向量偏置,分别表示第j个词的上下文词向量和上下文词向量偏置,都是训练参数,Value为要随机访问的矩阵,该矩阵为非负方阵,Valueij表示要随机访问的矩阵的第i行j列的值;Freq为频数矩阵,Freqij为元素Valueij的频数;因为当前要随机访问的矩阵value是词共现矩阵,该词共现矩阵就是频数矩阵Freq,因此在训练GloVe模型的时候使用的是Freqij=Valueij; C2.通过公式2或公式3计算所述词共现矩阵中词wi和词wj共现频数的近似值; 因为模型训练的目标是让损失函数J极小化且函数J的取值是非负的,所以训练时会让函数J的值趋向于0,得到以下等式: 在所述步骤B统计词共现矩阵时,若未忽略单词的先后顺序,则使用公式2计算Valueij,若选择了忽略单词的先后顺序,则统计获得的共现矩阵将是对称的,此时用如下公式3计算Valueij: 当基于GloVe模型训练出这些参数后,用公式2或公式3来计算Valueij,从而达到快速随机访问Value矩阵中的元素,Value矩阵因过于巨大不能载入内存,但是这些训练出的参数是可以完全载入到内存的; 步骤D.用随机访问得到的词共现矩阵的元素的近似值计算点互信息; 步骤E.基于点互信息计算注意力权重,将注意力权重应用于Skip-gram或GloVe模型进行词表示学习,得到目标词表示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361005 福建省厦门市思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。