买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连理工大学
摘要:本发明公开一种基于深度强化学习的自适应多智能体股票交易方法,属于量化交易领域。首先,爬取股票历史交易数据,对数据空缺值进行处理。通过对数据进行归一化和窗口化处理操作,构建初始股票特征标签。使用卷积神经网络、门控循环控制单元、双向长短期记忆网络、注意力机制构建多维度特征提取器,使用多维度特征提取器对获取的股票进行深层次特征提取。构建用于智能体交易的环境,并设计动态止损机制和奖励函数,基于Dueling深度Q网络构建多个用于交易的智能体,根据多维度特征提取器提供的状态信息独立执行决策,对所有智能体的决策进行分析,形成当前形势下最有利的决策。本发明能够灵活的应对市场的快速变化并做出更加全面的决策。
主权项:1.基于深度强化学习的自适应多智能体股票交易方法,其特征在于,步骤如下:步骤100,数据爬取及预处理;步骤101,确定数据源和股票交易的领域和主题;其中,数据源确定,针对要获取的指数、期货、个股数据集,选择Yahoo资源;步骤102,使用爬虫技术从数据源中获取股票交易数据;网络爬虫,通过解析函数Sd=Parsehtml,提取函数Ed=ExtractSd来实现爬虫;其中,html是原始网页,Sd表示解析函数Parse·后得到的解析数据,Ed表示解析函数Extract·后得到的解析数据;步骤103,过滤和清洗股票交易数据,去除无关信息,使数据更加干净和规范;使用文本处理技术进行数据清洗和规范化,设Ed为原始数据集,通过数据过滤操作FilterEd,应用过滤规则或条件,从原始数据中筛选出符合要求或标准的数据,生成中间数据集Fd;接着,对中间数据集Fd进行数据清洗操作CleanFd,清除存在缺失值或错误的数据,以确保数据的一致性和准确性,最后生成清洗后的数据集Cd;公式表示为:Cd=CleanFilterEd;其中,Filter·代表数据过滤的操作,Clean·代表数据清洗的操作;步骤104,利用获取到的股票数据构建特征标签;基于股票数据的开盘价、最高价、收盘价、收盘价、交易量信息,使用移动平均线和指数移动平均线构建用于训练框架的特征标签S={O,H,L,C,M30,M60,E90},其中O是开盘价,H是最高价,L是最低价,C是收盘价,M30是30天简单移动平均线,M60是60天简单移动平均线,E90是90天指数移动平均线;用Mt表示在时间t的简单移动平均值;N表示移动平均的时间周期,表示取多少个时间单位的价格数据来计算平均值;Ci-1表示第i-1个时间单位的收盘价;Et表示在时间t的指数移动平均值;α表示平滑因子,代表对当前价格和前一时间单位的指数移动平均值的权重;Ct表示第t个时间单位的收盘价,Et-1表示前一时间单位的指数移动平均值;公式表示为:步骤105,数据归一化及窗口化处理;对特征标签使用MinMaxScaler归一化方式对数据进行归一化,其中X表示股票特征数据,Xmin表示股票特征数据中的最小值,Xmax表示股票特征数据中的最大值,Xnorm表示归一化后的股票特征数据;将特征标签归一化到0~1之间,以消除不同特征维度之间的量纲差异,提高数据的稳定性;同时为了便于发现股票历史数据之间的关联性,对数据进行窗口化处理,每个窗口包含当天及前60天的数据St={st-1,st-2,…,st-60},其中St表示第t天的窗口数据,st-1、st-2、st-60表示第t-1,t-2,t-60天的股票特征数据;步骤200,构建多维度特征提取器;使用卷积神经网络CNN、门控循环控制单元GRU、双向长短期记忆网络BiLSTM、注意力机制构建多维度特征提取器,用于深入挖掘和分析金融时间序列;步骤201,使用卷积神经网络对特征数据进行提取;利用卷积神经网络CNN的卷积操作,捕捉金融时间序列中的短期依赖关系;通过堆叠多个卷积层,实现从低级特征到高级特征的多层次特征表示其中,i表示第i个时间步,j是卷积核在时间步维度上的索引,范围是1~k,k是卷积核在时间步维度上的大小,即卷积核的高度;l是卷积核在特征维度上的索引,范围是1~m,m是卷积核在特征维度上的大小,即卷积核的宽度;Wjl是卷积核的权重,表示卷积核在位置j,l处的权重;Xi+j-1l表示输入数据在位置i+1-1,l处的值,其中i是当前卷积操作的时间步索引;b是偏置向量,添加到每个卷积输出中;Yi是卷积操作在时间步i的输出,Zi是激活函数的输出,应用在ReLU激活函数后的结果;p是池化窗口的大小,Pi是池化后在时间步i的池化结果的输出;Wfc是全连接层的权重矩阵,bfc是全连接层的偏置向量,使用展开函数flatten·将Pi展开为一维向量,是最终的输出,CNNbranch是卷积后的输出特征图;步骤202,使用门控循环单元对特征数据进行提取;门控循环控制单元GRU捕捉金融时间序列中的长期依赖关系,其中Xt表示在时间步t的输入数据向量,ht-1表示前一个时间步的隐藏状态向量,σ表示Sigmoid激活函数,zt表示在时间步t的更新门向量,rt表示在时间步t重置门向量,表示在时间步t的候选隐藏状态向量,ht表示在时间步t的隐藏状态向量;Wz表示计算更新门的输入数据权重矩阵,Uz表示计算更新门的隐藏状态权重矩阵,bz表示计算更新门的偏置向量;Wr表示重置门的输入数据权重矩阵,Ur表示计算重置门的隐藏状态权重矩阵,br表示计算重置门的偏置向量;Wh表示计算候选隐藏状态的输入数据权重矩阵,Uh表示计算候选隐藏状态的隐藏状态权重矩阵,bh表示计算候选隐藏状态的偏置向量,tanh·表示Tanh激活函数;GRUbranch表示使用门控循环控制单元对数据处理后的输出结果;步骤203,使用双向长短期记忆网络对特征数据进行提取;双向长短期记忆网络BiLSTM在处理当前时间步的输入时,综合考虑到其之前和之后的信息;前向长短期记忆网络从时间步t=1到t=n处理数据:后向长短期记忆网络从时间步t=n到t=1处理数据: 其中,Xt表示第t个时间步的输入数据,和表示前一个时间步的隐藏状态向量,和表示前一个时间步的细胞状态向量,和表示在时间步t的遗忘门向量,和表示在时间步t的输入门向量,和表示在时间步t的细胞状态向量,和表示在时间步t的输出门向量,和表示在时间步t的隐藏状态向量,Wf表示计算遗忘门的输入数据权重矩阵,Uf表示计算遗忘门的隐藏状态权重矩阵,bf表示计算遗忘门的偏置向量,Wi表示计算输入门的输入数据权重矩阵,Ui表示计算输入门的隐藏状态权重矩阵,bi表示计算输入门的偏置向量,Wc表示计算候选细胞状态的输入数据权重矩阵,Uc表示计算候选细胞状态的隐藏状态权重矩阵,bc表示计算候选细胞状态的偏置向量,Wo表示计算输出门的输入数据权重矩阵,Uo表示计算输出门的隐藏状态权重矩阵,bo表示计算输出门的偏置向量,σ表示Sigmoid激活函数,tanh·表示Tanh激活函数;通过BiLTMbranch表示使用双向长短期记忆网络对数据处理后的输出结果;步骤204,使用注意力机制对数据做进一步提取;将注意力机制作用于门控循环单元GRU和双向长短期记忆网络BiLSTM处理后的数据,使用attentionbranch表示注意力机制的输出结果,attentionbranch=[GRUbranch,BiLTMbranch],帮助模型自动识别和突出这些关键时间点的信息,提供更精准和解释性更强的特征信息;步骤205,特征数据融合;对卷积神经网络CNN、门控循环控制单元GRU、双向长短期记忆网络BiLSTM、注意力机制处理后的数据进行融合,使用merge表示,公式为:merge={CNNbranch|GRUbranch|BiLTMbranch|attentionbranch},使用融合后的数据构建环境状态State={merge1,merge2,…merget},其中merget表示融合后第t个时间步的状态数据;步骤300,智能体执行交易;步骤301,构建交易环境;根据真实的交易场景,定义手续费考量机制,free=closet×dimension×0.1100;其中,free表示交易手续费,closet是t时刻的收盘价,dimension是交易尺寸;并对交易做持仓限制和空仓限制;持仓限制:若代理人当前持有股票的数量已经达到预设的最大持仓限额,则禁止其继续买入该股票;空仓限制:若代理人当前未持有某股票,则禁止其执行卖出操作;步骤302,设计动态止损机制;为了确保智能体在追求最大化收益的同时能够有效控制潜在损失,使用自适应风险调整因子将动态止损机制与奖励函数相结合,以增强智能体的风险意识和资金保护能力;Stopprice=BaseStop_price×1+δ·ATR,其中Stopprice表示当前状态下动态止损的收盘价,BaseStop_price为设置的股票基本止损价格,δ为自适应风险调整因子,ATR表示最近的平均波动范围;步骤303,设计奖励函数;奖励函数由两部分组成:交易利润和动态止损奖励;交易利润部分反映了代理在每笔交易中的实际收益,鼓励其在市场中寻找和利用盈利机会;而动态止损奖励则根据市场波动和风险水平进行调整,旨在促使代理在控制潜在损失方面做出更明智的决策;奖励函数表示为R=P-C+B;其中,R是最终获得的回报,代表本次交易的综合表现;P是交易利润;C是交易成本,涵盖了一次交易所有的交易费用;B是基于代理风险管理表现的奖励项;步骤304,构建多智能体交易模式;基于DuelingDQN的智能体利用其对偶网络结构中的价值流和优势流对股票市场动态进行双重分析;价值流专注于评估当前状态的整体价值,而优势流则衡量特定动作相对于其他可能选择的优势Qs,a=Vs+As,a,其中,s表示当前的状态,a表示当前状态s下的动作,Vs为状态值函数,表示在状态s下的预期回报不考虑具体动作;As,a为优势函数,表示在状态s下选择动作a相对于状态s下采取的平均动作的优势,Qs,a为状态-动作值函数,表示在状态s选择动作a后的预期回报;基于Dueling深度Q网络构建多个用于股票交易的智能体,首先根据多维度特征提取器提供的训练集部分环境状态信息对每个智能体进行单独的训练,以保证每个智能体的独立性,进而每个智能体在多维度特征提取器提供的验证集部分的状态环境状态信息对每个智能体训练效果进行验证,选取每个智能体最好效果的模型参数作为该智能体的模型参数,其次将所有训练并验证好的智能体作用于已经构建好的交易环境中,在每个时间步t,每个智能体都根据当前状态做出决策,采用投票机制选出当前最有利的决策;投票选取最优决策的公式为:bestaction=argmax{a1,a2,…,an},其中bestaction表示选取出的最有利的决策,a1~an分别表示每个智能体在当前状态s下做出的决策。
全文数据:
权利要求:
百度查询: 大连理工大学 基于深度强化学习的自适应多智能体股票交易方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。