首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于ANN和LLM的广告语义检索模型的建立方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东齐鲁壹点传媒有限公司

摘要:一种基于ANN和LLM的广告语义检索模型的建立方法,属于文本检索技术领域,包括以下步骤:S1、通过LLM提供大量关键词样本,并清洗不同的渠道数据,然后对数据进行处理,获得包含正样本、负样本的训练数据集;S2、获取最近一段时间的数据,并对数据进行过滤、筛选处理;S3、对具有代表性但低频的查询进行筛选,用作对训练数据集的补充。本发明提供的基于ANN和LLM的广告语义检索模型的建立方法,利用ANN算法,以及加入LLM模型产出的关键词样本,提升了生成的训练数据样本的质量和数量,从而可以建立准确性和检索效率更高的语义检索模型。

主权项:1.一种基于ANN和LLM的广告语义检索模型的建立方法,其特征在于,包括以下步骤:S1、通过LLM提供大量关键词样本,并清洗不同的渠道数据,然后对数据进行处理,获得包含正样本、负样本的训练数据集;S2、获取最近一段时间的数据,并对数据进行过滤、筛选处理;S3、对具有代表性但低频的查询进行筛选,用作对训练数据集的补充;S4、加入ChatGPT,获得ChatGPT产出的数据,形成新的训练数据集,以满足训练ANN模型所需的数据量;S5、对数据进行调整,减少query-bidword对的数量,并调整每个query下的bidword的数量;S6、将上述获得的样本与ANN相结合,来检验ANN的性能并对其进行进一步的优化;所述步骤S1中包括以下步骤:S11、收集一段时间内的pc优质渠道流量、移动流量日志和querybidword对;S12、针对query和bidword,分别计算二者的点击数,并对数据进行降采样,具体公式如下: ;其中,α为采样比例;S13、利用训练好的BERT模型对数据进行计算,根据数据与广告的相关性,得到数据的相关性分数,并设定相关性分数的阈值,分数大于阈值的数据样本被保留,分数小于等于阈值的数据样本被过滤掉;S14、将所有日志数据进行合并,筛选出在合并后的数据样本中重复出现了若干次的样本,则上述样本被视为人们感兴趣的正样本,并对这些样本进行人工标注;S15、从数据样本中选取一定数量的样本,作为负样本,并与正样本合并,形成随机负样本三元组;S16、获取一些与广告相关但相关性较低的样本,从一段时间内的数据中,选取包含电脑、移动推荐和二次请求广告的查询与关键词对,且这些组合的相关性分数低于设定的阈值的样本,作为hard负样本,并形成hard负样本三元组;S17、将随机负样本三元组和hard负样本三元组合并,形成包含若干个query-bidword对的训练数据集;所述步骤S2中包括以下步骤:S21、从用户一段时间内的搜索语料数据中,获取每天的查询数据;S22、将查询数据中信息熵较低且点击量较少的查询进行过滤;S23、使用训练好的大型BERT模型对相关性分数进行计算,并设置阈值,保留相关性分数大于阈值的query-bidword对,并过滤掉分数低于阈值的query-bidword对,筛选出与目标任务最相关的query-bidword对;所述步骤S3中包括以下步骤:S31、通过KR服务从若干个低频查询中进行筛选,获得具有代表性的查询,并利用获得的查询进行搜索,将其中搜索引擎能够召回但ANN不能召回的query-bidword对提取出来;S32、将ANN语料库与其它来源的数据进行合并,得到更多的数据,并继续进行筛选,提取到更多的query-bidword对;S33、对提取到的query-bidword对进行相关性分数的计算,获得高于阈值的query-bidword对;所述步骤S4中包括以下步骤:S41、加入ChatGPT模型,生成promote关键词文本,并获得对应的query-bidword对;S42、通过BERT模型对query-bidword对进行相关性分数的计算并过滤、筛选,获得过滤后的样本;S43、对得到的样本进行处理,获得最终样本集,用于后续的训练和分析任务;S44、将最终样本集中的若干个query-bidword对加入到ANN模型的训练样本中,以扩充训练数据集,并将所有的训练数据集合并在一起,形成一个新的训练数据集,用于满足训练ANN模型所需的数据量。

全文数据:

权利要求:

百度查询: 山东齐鲁壹点传媒有限公司 一种基于ANN和LLM的广告语义检索模型的建立方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。