买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:网易传媒科技(北京)有限公司
摘要:本公开涉及数据处理技术领域,尤其涉及一种word2vec模型训练、数据召回方法及装置,解决对于账户信息利用不充分,导致获取的word2vec模型生成的向量,无法表征账户与账户点击的文章之间的关联性,召回的数据无法满足实际需求的问题,方法为:周期性地根据账户操作的业务数据的项目ID,以及账户ID,生成每一个账户对应的至少一个重构ID序列,对word2vec模型进行训练,并根据模型输出的向量表,确定召回的业务数据,这样,训练样本中充分利用了账户与业务数据之间的交互信息,使得所述word2vec模型充分的学习账户与业务数据之间,以及不同业务数据之间的内在联系,进而能够召回符合账户需要的业务数据。
主权项:1.一种word2vec模型的训练方法,其特征在于,包括:周期性获取每一个账户在指定时间段内对于业务数据的操作日志,其中,所述操作日志中保存有对应的账户在至少一个会话过程中访问的,关联有操作时间的各个业务数据的项目标识信息ID;根据每一个账户对于业务数据的操作顺序,以及业务数据关联的操作时间和会话过程,将每一个账户的账户ID和该账户访问的业务数据的项目ID,组合生成至少一个重构ID序列,其中,重构ID序列中包括按照操作顺序排列的项目ID,以及至少在每相邻的两个项目ID之间添加的账户ID;所述重构ID序列中的项目ID和账户ID是穿插重构的;所述重构ID序列中的首端、末端,以及每相邻的两个项目ID之间,被添加有账户ID,或者,所述重构ID序列中每相邻的两个项目ID之间,被添加有账号ID;按照设置的模型架构搭建word2vec模型,并将生成的每一个重构ID序列分别作为所述word2vec模型的一条训练样本,对所述word2vec模型进行训练,以使所述word2vec模型学习项目ID与账户ID和其他项目ID之间的相似关系,并学习基于账户ID与项目ID和其他账户ID之间的相似关系,获得所述word2vec模型输出的与训练样本中包括的各个ID对应的各个向量,生成表征ID与向量之间的对应关系的向量集合。
全文数据:
权利要求:
百度查询: 网易传媒科技(北京)有限公司 一种word2vec模型训练、数据召回方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。