买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京大学
摘要:本发明公开了一种筛选含义偏移子词的方法、装置和存储介质,其中筛选含义偏移子词的方法,通过共享子词统计出源领域和目标领域来源词组,通过比较源领域和目标领域来源词组来判定共享子词含义是否发生偏移,通过预训练语言模型对来源词组进行综合表示编码,利用余弦相似度量化来源词组间的相似度。有效的筛选出发生含义偏移的共享子词,优化目标领域子词表示,从而提高目标领域模型性能。
主权项:1.一种筛选含义偏移子词的方法,其特征在于:所述方法包括分别基于源领域数据和目标领域数据训练出与各自领域对应的源领域BPE切分模型和目标领域BPE切分模型,通过各自领域的BPE切分模型对各自领域数据进行切分,分别得到源领域模型子词表和目标领域子词表;筛选出既在源领域子词表又在目标领域子词表中出现的子词构成包含多个子词的共享子词表;统计共享子词表中的每个共享子词在源领域数据的来源词形成源领域来源词组,统计所述共享子词表中的每个共享子词在目标领域数据的来源词形成目标领域来源词组;基于一个预训练语言模型,分别对源领域来源词组和目标领域来源词组中的每个来源词进行编码表示,再基于每个来源词的出现频次对编码表示进行加权平均分别得到对该共享子词在源领域来源词组和目标领域来源词组的综合编码表示;对每个共享子词,计算其源领域来源词组的综合编码表示和目标领域来源词组的综合编码表示之间的余弦相似度,并将余弦相似度与设定阈值进行比较,当一个余弦相相似度小于设定阈值时,此共享子词被认定为含义偏移子词。
全文数据:
权利要求:
百度查询: 南京大学 一种筛选含义偏移子词的方法、装置和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。