一种基于强化学习的优惠券发放方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：贵州大学

摘要：本发明公开了一种基于强化学习的优惠券发放方法，它包括以下步骤：一：使用强化学习算法对用户消费数据进行模型训练和发放结果预测，使用Redis数据库保存预测的结果；二：系统后台调用移动端接口，将预测的结果推送到商家的移动端，以便商家可以及时查看预测结果；三：商家可以通过系统的WEB端或移动端操作优惠券的发放，这时，系统后台便会调用微信公众号接口，将优惠券发放到用户的微信公众号上，整个发放流程结束。本发明构建了由第三方网站管理商家的优惠券，商家将微信公众号赋权给网站管理员，管理员通过商家的微信公众号去管理其店铺的用户，并向用户发放优惠券的模式，取得了很好的使用效果。

主权项：1.一种基于强化学习的优惠券发放方法，其特征在于：它包括以下步骤：步骤一：使用强化学习算法对用户消费数据进行模型训练和发放结果预测，使用Redis数据库保存预测的结果，HBase保存分析结果，HDFS进行持久化存储；步骤二：系统后台调用移动端接口，将预测的结果推送到商家的移动端，以便商家可以及时查看预测结果；步骤三：商家可以通过系统的WEB端或移动端操作优惠券的发放，这时，系统后台便会调用微信公众号接口，将优惠券发放到用户的微信公众号上，整个发放流程结束；所述步骤一中的强化学习算法的方法步骤为：状态定义：S[i]＝F[0],F[1],F[2],…,F[n]；S[i]是用户id为i时的状态，数组F是优惠券发放次数，0,1,2,…,n表示优惠券类型；动作定义：A＝0,1,2,…,n；0,1,2,…,n表示优惠券类型，动作含义是发放优惠券的类型；状态转移函数：状态转移函数涉及到计算优惠券使用次数，所以需要当前日期、发放日期和发放日期到当前日期期间优惠券的发放次数这些变量，若当前日期为t，状态S[i]＝F[0],F[1],F[2],…,F[n]，执行动作j时，则F[j]＝F[j]+1；因此转移后的状态为：S'[i]＝F'[0],F'[1],F'[2],F'[3],…,F'[n]；奖赏函数：奖赏函数r要反映出优惠券使用情况不同时，得到的奖惩值也不同，以便学习到策略是将优惠券发放给有使用需求的用户，下面求r的计算中，a为优惠券类型，action为当前发放优惠券类型，date为当前日期，F[i][a]为用户i接收a类型优惠券的日期，day[i][a]表示用户i未使用a类型优惠券的天数，其计算方法如下：如果date＝F[i][a]，day[i][a]＝date-F[i][a]，否则day[i][a]＝30+date-F[i][a]；然后D[i][a]表示用户i消费a类型优惠券的日期，日期是30天为一个周期，r[action]表示执行动作action时的奖赏值，couponstylesize表示优惠券类型的种类数，action＝couponstylesize–1表示没有给用户发放优惠券，优惠券有效期为15天，通过奖赏函数进行计算；采用的逼近函数是高斯函数，具体形式：Ψx的具体形式：所述方法具体为：第一步：初始化矩阵A＝0，循环步数n＝1，游戏结束步数episode；第二步：资格迹e＝0，选择初始状态x；第三步：若x是结束状态，则转至第十一步，否则依据贪婪策略选择动作a；第四步：执行动作a,得到即时回报r,状态转移到x′；第五步：计算资格迹e,e＝折扣因子γ*资格迹衰减因子λ*资格迹e与状态x下执行动作a的基函数向量的和，即第六步：计算值函数Q，在状态x′、权向量是ω下采取动作a的值函数Qx′，a，ω＝权向量ω与状态x′下执行动作a的基函数向量转置的乘积，第七步：动作a′等于在状态x′、权向量是ω下采取动作a的最大值函数Qx′，a，ω即a′＝argmaxaQx′，a，ω；第八步：矩阵A等于矩阵A加上资格迹e与基函数向量φx,a减去折扣因子γ乘以基函数向量差转置的乘积，即第九步：计算向量b,向量b等于向量b与资格迹e和折扣因子γ乘积的和，即b＝b+eγ；第十步:将下个状态值赋值给当前状态，即x＝x′，返回到步骤三；第十一步：若循环步数n等于游戏结束步数episode，一轮训练结束，否则执行下一步；第十二步：权向量ω等于A的逆矩阵和向量b的乘积，循环步数加1，返回步骤二。

全文数据：一种基于强化学习的优惠券发放方法技术领域本发明涉及一种优惠券发放方法，尤其涉及一种基于强化学习的优惠券发放方法，属于人工智能和数据处理技术领域。背景技术电子优惠券逐渐成为商业销售中常用的一种促销方法。商家给用户发放优惠券，对顾客来说降低了产品的价格，对商家而言既留住了老顾客、吸引了新用户，又带动了商品的销量。同时，优惠券凭借其灵活的发放方式以及发放后带来及时反馈的优势，在商业销售中成为一种极为常见的促销工具。然而，给哪些用户发放优惠券以及发放什么类型的优惠券，才能发挥出优惠券的价值，是困扰商家的一个难题。而现有电子优惠券发放方法存在着需要用户去下载，或者登录WEB端进行操作等不便利性；对线下零售店铺的商家而言，现有电子优惠券发放方法提供的服务又存在没有针对性等问题。发明内容本发明要解决的技术问题是：提供一种基于强化学习的优惠券发放方法，构建了由第三方网站管理商家的优惠券，商家将微信公众号赋权给网站管理员，管理员通过商家的微信公众号去管理其店铺的用户，并向用户发放优惠券的模式。这种模式避免用户去官网下载优惠券的不便利，同时帮助商家更好的管理用户，最后网站是以优惠券发放成效进行提成，给用户、商家和网站带来了三方的共赢的模式，为商家提供了一种高效、准确的低价服务，为用户提供了个性化、便利的发放方式，有效解决了上述存在的问题。本发明的技术方案为：一种基于强化学习的优惠券发放方法，它包括以下步骤：步骤一：使用强化学习算法对用户消费数据进行模型训练和发放结果预测，使用Redis数据库保存预测的结果，HBase保存分析结果，HDFS进行持久化存储；步骤二：系统后台调用移动端接口，将预测的结果推送到商家的移动端，以便商家可以及时查看预测结果；步骤三：商家可以通过系统的WEB端或移动端操作优惠券的发放，这时，系统后台便会调用微信公众号接口，将优惠券发放到用户的微信公众号上，整个发放流程结束。所述步骤一中的强化学习算法的方法步骤为：第一步：初始化矩阵A＝0，循环步数n＝1，游戏结束步数episode；第二步：资格迹e＝0，选择初始状态x；第三步：若x是结束状态，则转至第十一步，否则依据贪婪策略选择动作a；第四步：执行动作a,得到即时回报r,状态转移到x′；第五步：计算资格迹e,e＝折扣因子γ*资格迹衰减因子λ*资格迹e与状态x下执行动作a的基函数向量的和，即第六步：计算值函数Q，在状态x′、权向量是ω下采取动作a的值函数Qx′，a，ω＝权向量ω与状态x′下执行动作a的基函数向量转置的乘积，第七步：动作a′等于在状态x′、权向量是ω下采取动作a的最大值函数Qx′，a，ω即a′＝argmaxaQx′，a，ω；第八步：矩阵A等于矩阵A加上资格迹e与基函数向量减去折扣因子γ乘以基函数向量差转置的乘积，即第九步：计算向量b,向量b等于向量b与资格迹e和折扣因子γ乘积的和，即b＝b+er；第十步:将下个状态值赋值给当前状态，即x＝x′，返回到步骤三；第十一步：若循环步数n等于游戏结束步数episode，一轮训练结束，否则执行下一步；第十二步：权向量ω等于A的逆矩阵和向量b的乘积，循环步数加1，返回步骤二。上述方法步骤要用到计算机设备，它包括存储器和处理器以及存储在存储器上并可在处理器上运行的计算机程序，它还包括有信息展示模块、信息预测模块以及预测信息的发放模块，所述信息展示模块包括系统的WEB端、移动端，信息预测模块包括结果预测模块、系统后台、Spark大数据分析平台、Kafka、HBase、Redis和HDFS，信息发放模块包括信息推送平台和微信公众号接口。所述结果预测模块为运行强化学习算法的程序并用作预测应该给哪些用户发放什么类型的优惠券。所述系统后台是负责使用强化学习算法获得优惠券预测结果，是商家、用户和系统管理员与消息推送平台、微信公众号、Spark大数据平台相连相通的平台。所述Spark大数据分析平台用作对数据库中的优惠券信息、用户信息、商家信息进行趋势分析，为后期策略的指定给出数据依据。所述Kafka是数据输入时用作数据的收集，对消息进行缓存，以免消息过快或过慢导致的消息丢失和拥堵。所述HBase用作存储历史预测结果和分析结果，Redis是用作当前预测结果的存储，所述HDFS是用作原始数据的存储。所述消息推送平台是连接系统后台和商家移动端的重要部分。系统后台预测出需要发放的优惠券信息时，不仅会把信息传输到系统WEB端，还会把信息传输到商家的移动端，传到移动端需要的就是消息推送平台。所述微信公众号接口是连接系统后台、WEB端、移动端和用户的部分，系统后台预测出需要发放的优惠券信息时，有权限的人员在WEB端或者移动端进行相关操作，系统后台便调用微信公众号接口将优惠券信息发送到用户的微信公众号上。本发明的有益效果是：本发明构建了由第三方网站管理商家的优惠券，商家将微信公众号赋权给网站管理员，管理员通过商家的微信公众号去管理其店铺的用户，并向用户发放优惠券的模式，这种模式避免用户去官网下载优惠券的不便利，同时帮助商家更好的管理用户，最后网站是以优惠券发放成效进行提成，给用户、商家和网站带来了三方的共赢。本发明设计的发放流程中用户只需关注商家微信公众号，便可以得到有针对性发放的优惠券；而商家只需要将用户的消费数据放入系统中，便可以完成从预测到发放的一系列操作。此发明给商家和用户都带来便利和快捷的发放和接收优惠券的方式，具体有如下优点：1.对用户而言，只需关注商家微信公众号，便可及时在微信上得到有针对性发放的商家优惠券，不需下载任何移动端，也不需要登录网站，领取方式非常快捷；2.对商家而言，只需将用户信息和优惠券信息输入到系统中，便可准确的向用户发放适合的优惠券，并且商家可及时查询优惠券信息、推荐信息以及用户信息，便于商家对这些数据的及时了解；3.商家可以在移动端对优惠券推送进行及时操作，避免了身旁无电脑时的不便；4.强化学习算法作为一种和环境进行交互的试错性方法，能够根据数据的变化，灵活、准确的学习到最优的策略，因此预测结果准确、可靠；5.本发明性价比高，在现有优惠券的预测和发放形式中，使用的预测算法新颖并且有实用价值，发放形式新颖且适合市场需求。附图说明图1为本发明的发放原理图；图2为本发明的管理员操作系统的原理图；图3为本发明的商家操作系统的原理图。具体实施方式为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。实施例1：如附图1～3所示，一种基于强化学习的优惠券发放方法，它包括以下步骤：步骤一：使用强化学习算法对用户消费数据进行模型训练和发放结果预测，使用Redis数据库保存预测的结果，HBase保存分析结果，HDFS进行持久化存储；步骤二：系统后台调用移动端接口，将预测的结果推送到商家的移动端，以便商家可以及时查看预测结果；步骤三：商家可以通过系统的WEB端或移动端操作优惠券的发放，这时，系统后台便会调用微信公众号接口，将优惠券发放到用户的微信公众号上，整个发放流程结束。进一步的，步骤一中的强化学习算法的方法步骤为：第一步：初始化矩阵A＝0，循环步数n＝1，游戏结束步数episode；第二步：资格迹e＝0，选择初始状态x；第三步：若x是结束状态，则转至第十一步，否则依据贪婪策略选择动作a；第四步：执行动作a,得到即时回报r,状态转移到x′；第五步：计算资格迹e,e＝折扣因子γ*资格迹衰减因子λ*资格迹e与状态x下执行动作a的基函数向量的和，即第六步：计算值函数Q，在状态x′、权向量是ω下采取动作a的值函数Qx′，a，ω＝权向量ω与状态x′下执行动作a的基函数向量转置的乘积，第七步：动作a′等于在状态x′、权向量是ω下采取动作a的最大值函数Qx′，a，ω即a′＝argmaxaQx′，a，ω；第八步：矩阵A等于矩阵A加上资格迹e与基函数向量减去折扣因子γ乘以基函数向量差转置的乘积，即第九步：计算向量b,向量b等于向量b与资格迹e和折扣因子γ乘积的和，即b＝b+er；第十步:将下个状态值赋值给当前状态，即x＝x′，返回到步骤三；第十一步：若循环步数n等于游戏结束步数episode，一轮训练结束，否则执行下一步；第十二步：权向量ω等于A的逆矩阵和向量b的乘积，循环步数加1，返回步骤二。进一步的，上述方法步骤要用到计算机设备，它包括存储器和处理器以及存储在存储器上并可在处理器上运行的计算机程序，它还包括有信息展示模块、信息预测模块以及预测信息的发放模块，所述信息展示模块包括系统的WEB端、移动端，信息预测模块包括结果预测模块、系统后台、Spark大数据分析平台、Kafka、HBase、Redis和HDFS，信息发放模块包括信息推送平台和微信公众号接口。进一步的，结果预测模块为运行强化学习算法的程序并用作预测应该给哪些用户发放什么类型的优惠券。进一步的，系统后台是负责使用强化学习算法获得优惠券预测结果，是商家、用户和系统管理员与消息推送平台、微信公众号、Spark大数据平台相连相通的平台。进一步的，Spark大数据分析平台用作对数据库中的优惠券信息、用户信息、商家信息进行趋势分析，为后期策略的指定给出数据依据。进一步的，Kafka是数据输入时用作数据的收集，对消息进行缓存，以免消息过快或过慢导致的消息丢失和拥堵。进一步的，HBase用作存储历史预测结果和分析结果，Redis是用作当前预测结果的存储，所述HDFS是用作原始数据的存储。进一步的，消息推送平台是连接系统后台和商家移动端的重要部分。系统后台预测出需要发放的优惠券信息时，不仅会把信息传输到系统WEB端，还会把信息传输到商家的移动端，传到移动端需要的就是消息推送平台。进一步的，微信公众号接口是连接系统后台、WEB端、移动端和用户的部分，系统后台预测出需要发放的优惠券信息时，有权限的人员在WEB端或者移动端进行相关操作，系统后台便调用微信公众号接口将优惠券信息发送到用户的微信公众号上。进一步的，本发明的具体算法步骤如下：状态定义：S[i]＝F[0],F[1],F[2],…,F[n],S[i]是用户id为i时的状态，数组F是优惠券发放次数，0,1,2,…,n表示优惠券类型。动作定义：A＝0,1,2,…,n,0,1,2,…,n表示优惠券类型，动作含义是发放优惠券的类型。状态转移函数：状态转移函数涉及到计算优惠券使用次数，所以需要当前日期、发放日期和发放日期到当前日期期间优惠券的发放次数这些变量。若当前日期为t，状态S[i]＝F[0],F[1],F[2],…,F[n]，执行动作j时，则F[j]＝F[j]+1；因此转移后的状态为：S'[i]＝F'[0],F'[1],F'[2],F'[3],…,F'[n]。奖赏函数：奖赏函数r要反映出优惠券使用情况不同时，得到的奖惩值也不同，以便学习到策略是将优惠券发放给有使用需求的用户，下面求r的计算中，a为优惠券类型，action为当前发放优惠券类型，date为当前日期，F[i][a]为用户i接收a类型优惠券的日期，day[i][a]表示用户i未使用a类型优惠券的天数，其计算方法如下：然后D[i][a]表示用户i消费a类型优惠券的日期，日期是30天为一个周期，r[action]表示执行动作action时的奖赏值，couponstylesize表示优惠券类型的种类数，action＝couponstylesize–1表示没有给用户发放优惠券，优惠券有效期为15天，具体计算方式如下：采用的逼近函数是高斯函数，具体形式：Ψx的具体形式：算法的模型和具体参数设定后，进行算法的实施；令A＝0,b＝0,n＝1，初始化episode；e＝0；选择初始状态x；判断x的状态，若x不是结束状态：根据贪婪策略选择动作a；执行动作a，得到即时回报r，和新的状态x’；根据计算资格迹e；根据计算Q值函数；根据a′＝argmaxaQx′，a，ω计算a′的值；根据b＝b+er计算向量b；根据计算矩阵A；x＝x’；若x是结束状态，判断n是否等于episode，若不等于；计算ω＝A-1*b，n＝n+1；返回到[0027]；否则，整个算法结束。商户在界面进行注册、登录以及增删改查等操作；系统后台调用消息推送平台接口，消息推送平台将消息推送到商户移动端上；商户进行优惠券推送操作时，系统后台调用微信公众号接口将消息推送到用户账号上，系统后台保存推送记录；管理员在界面进行增删改查操作时，系统后台进行数据的保存以及返回相应的数据；产生推荐结果时，系统后台调用消息推送平台接口将消息传输到平台上，消息推送平台调用第三方推送服务接口将消息推送到商户移动端上；管理员进行优惠券推送操作时，系统后台调用微信公众号接口将消息推送到用户账号上，系统后台保存推送记录；管理员登录系统，点击优惠券管理界面，可查询所有商家优惠券信息；点击优惠券信息分析，可查看对优惠券进行的各种分析，如优惠券使用趋势，优惠券发放趋势等；管理员登录系统，点击商家管理界面，可查询所有商家的信息；点击商家信息分析，可查看对所有商家进行的各种分析，如商家发放的优惠券数量，商家拥有的用户数等；商家登录系统，点击优惠券管理界面，可查询商家自己的优惠券信息；点击优惠券信息分析，可查看对优惠券进行的各种分析，如优惠券使用趋势，优惠券发放趋势等；系统提供可查询的信息分析内容如表1和表2表1用户信息分析内容表表2优惠券信息分析内容表使用大数据技术和相应平台可以解决用户数据量大的问题，通过这些技术快速的分析和处理数据，提升数据分析的效率，减少训练出合适的算法模型所需的时间，充分发挥数据的价值。Spark是大数据技术中专为大规模数据处理而设计的快速通用的计算引擎，提供了大量的库，开发者可以在同一个应用程序中无缝组合使用这些库，并且Spark非常适用于数据挖掘与机器学习等需要迭代计算的算法。强化学习算法作为一种可以和环境进行交互的试错性方法，通过迭代的试错逐步学习到最优策略，根据强化学习求最优策略的思想可以解决个性化需求的问题。在移动互联网快速发展的今天，微信公众号成为新的营销途径。通过微信公众号来管理用户，提高了商家和用户之间的互动，用户可以及时收到商家的促销信息，带动了彼此间消息传播的速度。本发明提供了一种基于强化学习的优惠券发放设备，构建了由第三方网站管理商家的优惠券，商家将微信公众号赋权给网站管理员，管理员通过商家的微信公众号去管理其店铺的用户，并向用户发放优惠券的模式。这种模式避免用户去官网下载优惠券的不便利，同时帮助商家更好的管理用户，最后网站是以优惠券发放成效进行提成，给用户、商家和网站带来了三方的共赢。本发明设计的发放流程中用户只需关注商家微信公众号，便可以得到有针对性发放的优惠券；而商家只需要将用户的消费数据放入系统中，便可以完成从预测到发放的一系列操作。此发明给商家和用户都带来便利和快捷的发放和接收优惠券的方式。本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

权利要求：1.一种基于强化学习的优惠券发放方法，其特征在于：它包括以下步骤：步骤一：使用强化学习算法对用户消费数据进行模型训练和发放结果预测，使用Redis数据库保存预测的结果，HBase保存分析结果，HDFS进行持久化存储；步骤二：系统后台调用移动端接口，将预测的结果推送到商家的移动端，以便商家可以及时查看预测结果；步骤三：商家可以通过系统的WEB端或移动端操作优惠券的发放，这时，系统后台便会调用微信公众号接口，将优惠券发放到用户的微信公众号上，整个发放流程结束。2.根据权利要求1所述的基于强化学习的优惠券发放方法，其特征在于：所述步骤一中的强化学习算法的方法步骤为：第一步：初始化矩阵A＝0，循环步数n＝1，游戏结束步数episode；第二步：资格迹e＝0，选择初始状态x；第三步：若x是结束状态，则转至第十一步，否则依据贪婪策略选择动作a；第四步：执行动作a,得到即时回报r,状态转移到x′；第五步：计算资格迹e,e＝折扣因子γ*资格迹衰减因子λ*资格迹e与状态x下执行动作a的基函数向量的和，即第六步：计算值函数Q，在状态x′、权向量是ω下采取动作a的值函数Qx′，a，ω＝权向量ω与状态x′下执行动作a的基函数向量转置的乘积，第七步：动作a′等于在状态x′、权向量是ω下采取动作a的最大值函数Qx′，a，ω即a′＝argmaxaQx′，a，ω；第八步：矩阵A等于矩阵A加上资格迹e与基函数向量减去折扣因子γ乘以基函数向量差转置的乘积，即第九步：计算向量b,向量b等于向量b与资格迹e和折扣因子γ乘积的和，即b＝b+er；第十步:将下个状态值赋值给当前状态，即x＝x′，返回到步骤三；第十一步：若循环步数n等于游戏结束步数episode，一轮训练结束，否则执行下一步；第十二步：权向量ω等于A的逆矩阵和向量b的乘积，循环步数加1，返回步骤二。

百度查询：贵州大学一种基于强化学习的优惠券发放方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于强化学习的优惠券发放方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务