(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111635694.2
(22)申请日 2021.12.28
(71)申请人 西安交通大 学
地址 710049 陕西省西安市咸宁西路28号
(72)发明人 赵玺 刘佳璠 王乐 李雨航
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
代理人 李鹏威
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 50/14(2012.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度强化学习的旅游路线定制方
法及系统
(57)摘要
本发明公开了一种基于深度强化学习的旅
游路线定制方法及系统, 包括依据酒店、 景点、 交
通数据挖掘游 客历史偏好得分; 基于深度强化学
习算法的路线优化框架; 获取游客需求, 生成智
能、 定制化路线; 基于游客实时场景变化, 动态更
新路线; 该方法可以快速得到包含酒店及景点的
智能化、 定制化路线, 为游客提供更加多样化、 便
捷的服务, 省去游客选择酒店、 景点和路线规划
的时间; 环境看为游客真实所处的旅游环境, 旅
游环境包括POI信息和游客输入信息, 根据游客
历史偏好和需求生成路线, 可以满足游客个性化
和定制化的设计要求; 根据游客真实旅游路径,
动态化智能化规划路线, 并进一步学习优化模
型, 可以提高游客满意度和体验感。
权利要求书3页 说明书9页 附图2页
CN 114254837 A
2022.03.29
CN 114254837 A
1.一种基于深度强化学习的旅游路线定制方法, 其特 征在于, 包括以下步骤:
获取游客需求, 基于所述游客需求和路线优化模型生成定制化路线;
其中, 路线优化模型基于深度强化学习框架, 将旅游路线规划问题定义为一个马尔科
夫决策过程, 即按时间序列 依次生成POI信息, 根据 游客给定起点、 终点、 游玩天数和每天游
玩时长, 按照游客给定起点, 依次选择景点, 一天游玩结束后选择酒店; 第二天, 从酒店出
发, 重复上述过程, 直到游玩结束, 选择游客给定的终点, 深度强化学习框架包括环境和智
能体, 游客真实所处的旅游环境作为环境, 所述旅游环境包括POI信息和游客输入信息变
量, 采用深度学习算法学习环境表征; 通过输入环境信息, 智能体输出下一步需要选择的
POI; 通过 行动者‑评论者算法训练, 得到路线优化模型;
根据游客实时场景变化, 基于路线优化模型动态更新路线。
2.根据权利要求1所述的基于深度强化学习的旅游路线定制方法, 其特征在于, 路线优
化模型训练包括如下步骤:
收集旅游目的地的酒店和景点的属性信 息及游客评论信息, 酒店和景点统称为POI, 同
时收集POI与交通信息相关的数据; 旅游目的地包括传统经典线路一系列目的地或单一某
一个城市、 或某一处风景区;
通过分析 所述游客评论信息, 构建游客画像, 挖掘游客对景点的偏好得分;
基于游客偏好得分、 景点信息及交通信 息, 构建基于深度强化学习框架线优化模型, 通
过行动者‑评论者算法训练, 求得优化模型。
3.根据权利要求1所述的基于深度强化学习的旅游路线定制方法, 其特征在于, 深度强
化学习框架包括状态、 行动、 奖励和策略;
状态: 状态定义某一之前选择的POI序列, 状态是环境的输出, 是智能体的输入, 在旅游
线路设计中, 根据旅游语境信息将状态元 素分为静态元 素和动态元 素;
行动: 根据当前状态, 下一个需要被选择的POI为行动, 选择POI后, 状态将更新为一个
新的状态, 选择不同的行动(POI)将导 致不同的状态更新;
奖励: 奖励定义一个行为在当前状态下对环境的改变是好是坏, 将用户对一个POI序列
的偏好值总得分作为奖励Reward, 奖励用于指导智能体选择使目标函数最大化的POI序列,
其具体计算公式为:
其中, k∈{1,2,...,K}表示游客类型; U表示总偏好得分值; Uk表示游客类型为k的游客
的总偏好得分值; at表示第t步选 择的POI;
表示游客类 型为k的游客在第t步选择的POI所
带来的偏好得分;
策略: 智能体基于策略选择动作, 通过输入当前状态, 输出动作的概率分布, 将当前状
态映射为最优控制动作以被下一步选择; 一个序列拥有更高的总 奖励, 更新参数以支持该
序列; 行动概 率的计算方式为:
P(at|st,G)= πθ(st,at)
其中, G表示POI网络分布图; πθ表示参数为θ 的策略网络; st表示第t阶段的状态, at表示
第t阶段生成的动作;
接着, 计算POI序列的生成概 率, 其计算方式为:权 利 要 求 书 1/3 页
2
CN 114254837 A
2其中, O表示POI序列; G表示POI网络分布图; p(ot|Ot‑1,G)表示行动概率, 即在第t步根据
所选的POI序列选择 下一个POI的概 率;
训练DRL模型的目的是更新策略参数, 使总奖励值最大化, 即训练模型, 使得其能产生
使用户偏好总得分最大化的路线; 通过对给定参数和图的所有旅游路线进 行求和来计算期
望的奖励, 其计算方式为:
其中, πθ表示参数为θ 的策略网络; R(O|G)表示在POI网络分布图为 G的条件下, POI序列O
所获得的奖励;
最后, 采用行动者 ‑评论者算法进行模型训练, 得到优化后的DRL模型。
4.根据权利要求3所述的基于深度强化学习的旅游路线定制方法, 其特征在于, 使用基
于策略梯度的行动者 ‑评论者算法来训练策略网络, 在行动者 ‑评论者框架中, 行动者负责
策略梯度学习 策略, 即策略网络通过与环境的互动产生行动, 评论者用来估计预期的累积
奖励, 预期的累积奖励对评价行动者的表现和指导行动者在下一阶段的行动作出回应;
通过给出POI网络分布图G并设置参数, 策略网络的训练目标是使期望回报最大化, 为
了使期望回报最大化, 采用策略梯度算法来更新策略; 策略梯度
表示为:
其中, G表示POI网络分布图; On表示随机生成的第n个POI序列; R(On|G)表示POI序列On
的奖励; b(G)表示期望累积奖励的基线, 用于减少训练方差; πθ(O)表示参数为θ的策略网
络;
评论者网络为前馈神经网络, 输入是各个景点的嵌入特征向量的加权和, 接下来是两
个隐藏层, 即ReLU和Dense层, 以及另一个线性层, 所述线性层带有单个输出以返回估计的
奖励, 将均方误差表示 为评论者, 均方误差用于训练评论 者网络参数, 具体表示 为:
其中, N表示批大小的个数; On表示随机生成的第n个POI序列; G表示POI网络分布图; R
(On|G)表示POI序列On的奖励; bβ(G)表示参数为β 的期望累积奖励;
将期望值 替换为批量 N中蒙特卡罗抽样的平均值:
其中, N为批大小的个数, 然后, 使用梯度来调整策略的参数:
其中, α 为学习率, 控制策略参数 更新的速率;
在训练中, 行动者网络和评论者网络同时进行训练, 行动者网络按照评论者建议的方
向更新策略函数的参数。
5.根据权利要求1所述的基于深度强化学习的旅游路线定制方法, 其特征在于, POI属权 利 要 求 书 2/3 页
3
CN 114254837 A
3
专利 一种基于深度强化学习的旅游路线定制方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:27:00上传分享