专利 一种基于深度强化学习的旅游路线定制方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111635694.2 (22)申请日 2021.12.28 (71)申请人西安交通大学地址 710049 陕西省西安市咸宁西路28号 (72)发明人赵玺　刘佳璠　王乐　李雨航　 (74)专利代理机构西安通大专利代理有限责任公司 6120 0 代理人李鹏威 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/14(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度强化学习的旅游路线定制方法及系统 (57)摘要本发明公开了一种基于深度强化学习的旅游路线定制方法及系统，包括依据酒店、景点、交通数据挖掘游客历史偏好得分；基于深度强化学习算法的路线优化框架；获取游客需求，生成智能、定制化路线；基于游客实时场景变化，动态更新路线；该方法可以快速得到包含酒店及景点的智能化、定制化路线，为游客提供更加多样化、便捷的服务，省去游客选择酒店、景点和路线规划的时间；环境看为游客真实所处的旅游环境，旅游环境包括POI信息和游客输入信息，根据游客历史偏好和需求生成路线，可以满足游客个性化和定制化的设计要求；根据游客真实旅游路径，动态化智能化规划路线，并进一步学习优化模型，可以提高游客满意度和体验感。权利要求书3页说明书9页附图2页 CN 114254837 A 2022.03.29 CN 114254837 A 1.一种基于深度强化学习的旅游路线定制方法，其特征在于，包括以下步骤：获取游客需求，基于所述游客需求和路线优化模型生成定制化路线；其中，路线优化模型基于深度强化学习框架，将旅游路线规划问题定义为一个马尔科夫决策过程，即按时间序列依次生成POI信息，根据游客给定起点、终点、游玩天数和每天游玩时长，按照游客给定起点，依次选择景点，一天游玩结束后选择酒店；第二天，从酒店出发，重复上述过程，直到游玩结束，选择游客给定的终点，深度强化学习框架包括环境和智能体，游客真实所处的旅游环境作为环境，所述旅游环境包括POI信息和游客输入信息变量，采用深度学习算法学习环境表征；通过输入环境信息，智能体输出下一步需要选择的 POI；通过行动者‑评论者算法训练，得到路线优化模型；根据游客实时场景变化，基于路线优化模型动态更新路线。 2.根据权利要求1所述的基于深度强化学习的旅游路线定制方法，其特征在于，路线优化模型训练包括如下步骤：收集旅游目的地的酒店和景点的属性信息及游客评论信息，酒店和景点统称为POI，同时收集POI与交通信息相关的数据；旅游目的地包括传统经典线路一系列目的地或单一某一个城市、或某一处风景区；通过分析所述游客评论信息，构建游客画像，挖掘游客对景点的偏好得分；基于游客偏好得分、景点信息及交通信息，构建基于深度强化学习框架线优化模型，通过行动者‑评论者算法训练，求得优化模型。 3.根据权利要求1所述的基于深度强化学习的旅游路线定制方法，其特征在于，深度强化学习框架包括状态、行动、奖励和策略；状态：状态定义某一之前选择的POI序列，状态是环境的输出，是智能体的输入，在旅游线路设计中，根据旅游语境信息将状态元素分为静态元素和动态元素；行动：根据当前状态，下一个需要被选择的POI为行动，选择POI后，状态将更新为一个新的状态，选择不同的行动(POI)将导致不同的状态更新；奖励：奖励定义一个行为在当前状态下对环境的改变是好是坏，将用户对一个POI序列的偏好值总得分作为奖励Reward，奖励用于指导智能体选择使目标函数最大化的POI序列，其具体计算公式为：其中， k∈{1,2,...,K}表示游客类型； U表示总偏好得分值； Uk表示游客类型为k的游客的总偏好得分值； at表示第t步选择的POI；表示游客类型为k的游客在第t步选择的POI所带来的偏好得分；策略：智能体基于策略选择动作，通过输入当前状态，输出动作的概率分布，将当前状态映射为最优控制动作以被下一步选择；一个序列拥有更高的总奖励，更新参数以支持该序列；行动概率的计算方式为： P(at|st,G)＝ πθ(st,at) 其中， G表示POI网络分布图； πθ表示参数为θ 的策略网络； st表示第t阶段的状态， at表示第t阶段生成的动作；接着，计算POI序列的生成概率，其计算方式为：权　利　要　求　书 1/3 页 2 CN 114254837 A 2其中， O表示POI序列； G表示POI网络分布图； p(ot|Ot‑1,G)表示行动概率，即在第t步根据所选的POI序列选择下一个POI的概率；训练DRL模型的目的是更新策略参数，使总奖励值最大化，即训练模型，使得其能产生使用户偏好总得分最大化的路线；通过对给定参数和图的所有旅游路线进行求和来计算期望的奖励，其计算方式为：其中， πθ表示参数为θ 的策略网络； R(O|G)表示在POI网络分布图为 G的条件下， POI序列O 所获得的奖励；最后，采用行动者 ‑评论者算法进行模型训练，得到优化后的DRL模型。 4.根据权利要求3所述的基于深度强化学习的旅游路线定制方法，其特征在于，使用基于策略梯度的行动者 ‑评论者算法来训练策略网络，在行动者 ‑评论者框架中，行动者负责策略梯度学习策略，即策略网络通过与环境的互动产生行动，评论者用来估计预期的累积奖励，预期的累积奖励对评价行动者的表现和指导行动者在下一阶段的行动作出回应；通过给出POI网络分布图G并设置参数，策略网络的训练目标是使期望回报最大化，为了使期望回报最大化，采用策略梯度算法来更新策略；策略梯度表示为：其中， G表示POI网络分布图； On表示随机生成的第n个POI序列； R(On|G)表示POI序列On 的奖励； b(G)表示期望累积奖励的基线，用于减少训练方差； πθ(O)表示参数为θ的策略网络；评论者网络为前馈神经网络，输入是各个景点的嵌入特征向量的加权和，接下来是两个隐藏层，即ReLU和Dense层，以及另一个线性层，所述线性层带有单个输出以返回估计的奖励，将均方误差表示为评论者，均方误差用于训练评论者网络参数，具体表示为：其中， N表示批大小的个数； On表示随机生成的第n个POI序列； G表示POI网络分布图； R (On|G)表示POI序列On的奖励； bβ(G)表示参数为β 的期望累积奖励；将期望值替换为批量 N中蒙特卡罗抽样的平均值：其中， N为批大小的个数，然后，使用梯度来调整策略的参数：其中， α 为学习率，控制策略参数更新的速率；在训练中，行动者网络和评论者网络同时进行训练，行动者网络按照评论者建议的方向更新策略函数的参数。 5.根据权利要求1所述的基于深度强化学习的旅游路线定制方法，其特征在于， POI属权　利　要　求　书 2/3 页 3 CN 114254837 A 3

专利 一种基于深度强化学习的旅游路线定制方法及系统

专利一种基于深度强化学习的旅游路线定制方法及系统