Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向农村电商物流的配送中心选址方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明提供一种面向农村电商物流的配送中心选址方法,该方法使用了ViT和A2C作为基础的配送中心选址方法,同时建立了一个较为完整的代价计算模型来更好的评价配送中心选址的优劣,从而能够同时保证配送中心选址的高效性和准确性。

主权项:1.一种面向农村电商物流的配送中心选址方法,其特征在于,包括以下步骤:S1:对使用的数据集进行预处理;所述步骤S1的具体过程是:S11:筛选数据集中地址字段的记录行,去除地址字段中地址为空的记录行,标记地址字段中杂糅地址的记录行,保留地址字段中地址正确的记录行;S12:将数据集中地址字段转换为经纬度坐标,使用脚本语言调用网络地图提供的地址解析API,对地址字段进行经纬度坐标的批量转换并加入数据集的经纬度字段中;S13:筛选数据集中经纬度坐标字段的记录行,去除S11中标记的记录行中经纬度坐标偏移出地区界限的记录,对除此之外的所有经纬度偏移出该地区界限的记录进行特殊处理—在地区界限范围内随机生成经纬度坐标,用以代替API解析出的偏移坐标;S14:将数据集中涉及投递难度的字段系数化,将数据集的重量和业务种类字段系数化,即根据这个字段的数据取值范围进行分段,设置相应的权重,另外,根据道路情况的不同增加一个字段用于表示交通难度,也设置不同的难度系数;S2:利用步骤S1得到的数据建立代价计算模型;所述步骤S2的过程是:由于配送的代价计算主要由两部分组成,一是工作人员在给定路线上行进所消耗的时间,记为行进时间;二是工作人员在作业地点进行投递操作花费的时间,记为投递时间;行进时间涉及给定行进路线的距离、行进速度、重量和交通难度三个因素;投递时间涉及包裹数量、业务种类系数,将这些系数转化成以小时为单位用到专家咨询法和经验估计;给定的路线由TSP求解器concord求解得到,计算距离时则采用曼哈顿距离;记所有配送中心的集合为,每个配送中心的工作人员集合为,工作人员一天所需要投递的所有地点的集合为,设给定的规划完毕的最优路径为,由于工作人员投递完成之后还需要回到配送中心,因此有,代价公式如下所示: (1)点p和点q均属于同一个集合,且点是最优路径R中的下一个近邻,为点和点之间的曼哈顿距离,为点和点之间工作人员的移动速度,该速度由式(2)计算得到: (2)其中,表示从点移动到点之间这段路径的交通难度系数,具体路径的交通难度系数可以通过不同的方式来设定,为交通难度为1时的标准速度,这里设置为;问题的目标是在上述定义下,得到使式(1)中使得最小的集合,也即选取合适的个配送中心的地址,使得代价和最小;S3:对步骤S1得到的数据进行可视化;所述步骤S3的过程是:对每个点的颜色按照配送地点需要投递的物品的重量大小进行上色,颜色越深的物品重量越大,设可视化后的图片大小为,其中为图片的宽度,为图片的高度,称可视化后的图片为数据图;S4:对于步骤S3中获得的数据图,搭建深度网络模块提取其特征;所述步骤S4中,采用视觉自注意力变换网络ViT学习每个点互相之间的关系,视觉自注意力变换网络ViT的自注意力机制见式(3): (3)利用三个可训练参数矩阵,和与输入的图片矩阵乘法分别得到查询向量,键向量和值向量,使用与相乘计算它们的相似度,最后与相乘求出它们的得分,为向量的维度,这里做除法是为了控制数据的方差,避免反向传播过程中的梯度消失;在视觉自注意力变换网络ViT模型中并不是直接将大小的图片直接作为输入,而是先将图片分割成N个大小为的patch,其中,分别将每一个patch所有通道的像素拼接在一起,随后利用式(3)来进行自注意力计算,这个过程即可提取数据图的特征,在网络训练的过程中视觉自注意力变换网络ViT将会逐渐关注到图片的各个点之间的关系和颜色深浅特征,用来做网络反向传播的梯度损失函数将在步骤S5中给出;所述步骤S4的具体过程是:S31:将数据图分割成24个100*100的patch,将每个patch的所有像素分别进行拼接,维度为10000*1,随后将每个patch输入至线性网络将其维度降至256,对这些降维之后的向量进行位置编码,即按顺序为这些向量加上位置信息;S32:对于S31得到的向量,输入到Transformer中进行自注意力的计算,Transformer包括6层编码器的堆叠,每层编码器由自注意力层和前馈层组成,向量输入到编码器时首先进入自注意力层中的线性网络,得到Q,K,V三个向量,使用式(3)计算得到中间结果,在编码器的前馈层中,将该中间结果和S31中得到的向量相加作为输入,得到自注意力编码,将该自注意力编码和式(3)计算的中间结果相加,作为下一个编码器的输入,直至第6个编码器输出最终的自注意力编码;S33:对于S32得到的自注意力编码,输入到线性网络层中得到最终的特征向量;S5:搭建强化学习模块,得到使代价计算模型输出最小代价的坐标的配送中心地址集合;所述步骤S5中,强化学习包含五大基本要素,分别是Environment,Agent,State,Action和Reward;Agent通过当前State选择Action来与Environment进行交互,交互之后Agent会得到Reward,同时State也会由于Action的作用发生改变;将步骤S4中的数据图作为Environment,将数据图特征和Agent所处的位置作为State;配送中心作为Agent,它采取的Action为向东、西、南、北、西南、西北、东南和东北方位移动和保持不动共9个动作;Reward则由式(1)计算的结果取相反数得到,强化学习模块采用的网络架构为优势动作评论算法A2C,该算法衍生于动作评论算法AC,A2C与AC一样,采用的是策略梯度,即采用轨迹的回报来调整该轨迹出现的概率,A2C的策略梯度如式(4): (4) 代表时间步,代表在时间下的环境状态即步骤S4中提取到的数据图特征,代表时间下选择的动作,表示在状态下采取动作的概率,代表优势函数,其中代表在时间下获得的奖励,为折扣因子,代表在状态下的期望回报值,用以衡量这个状态即配送中心所处位置的好坏,由此可知,如果大于0,则代表动作比平均动作好,否则比平均动作差;利用式(4)对深度网络模块和强化学习模块这两个网络进行梯度更新,将更好地提取特征并使Agent采取的Action越来越好;A2C的网络架构包括两部分,一个是Actor,用来选择策略;一个是Critic,用来评估某个状态下的期望回报值,将环境状态输入Actor模块将得到动作,输入Critic模块则得到状态下的期望回报值;所述步骤S5的具体过程是:S51:对于步骤S4中输出的特征向量,将其分别输入至Actor网络和Critic网络得到每个动作的概率向量和期望回报值,这两个网络均为多层感知机MLP,将动作的概率向量使用Softmax函数进行归一化,选择概率最大的动作输出;S52:对于S51输出的动作,执行该动作使配送中心的坐标发生改变,通过式(1)计算新配送中心位置的代价,将该代价的相反数作为奖励;S53:对于S52中输出的奖励和S51中得到的期望回报值,将它们分别作为和,结合S51中的动作概率向量,使用式(4)计算梯度,对网络进行梯度下降。

全文数据:

权利要求:

百度查询: 中山大学 一种面向农村电商物流的配送中心选址方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。