(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210852098.8
(22)申请日 2022.07.20
(71)申请人 广东工业大 学
地址 510006 广东省广州市东 风东路729号
(72)发明人 罗玉 杨超林 凌捷 柳毅
(74)专利代理 机构 北京清控智云知识产权代理
事务所 (特殊普通合伙)
11919
专利代理师 管士涛
(51)Int.Cl.
G06T 17/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06V 40/16(2022.01)
(54)发明名称
一种三维人脸重 建模型训练方法、 系统及可
读存储介质
(57)摘要
本申请实施例提供的一种三维人脸重建模
型训练方法、 系统及可读存储介质, 该方法包括
获取包含多张人脸图像的人脸数据集、 以及各人
脸图像的特征点标注信息; 根据特征点标注信
息, 对各人脸图像进行处理, 得到训练监督数据,
训练监督数据包括人脸区域掩模、 投影变换后的
标准平均人脸模型、 及标准人脸变形信息; 构建
用于结合预测到的平均人脸模型、 以及人脸变形
信息进行三维人脸重建的初始三维人脸重建模
型, 初始三维人脸重建模型由多个具备相同结构
的Encoder ‑Decoder网络构成, Encoder ‑Decoder
网络在编码层和解码层的跳跃连接中加入了通
道‑空间注意力感知机制; 基于人脸图像、 以及对
应的人脸区域掩模进行模型训练, 并在达到训练
结束条件时, 得到目标三维人脸重建模型。
权利要求书3页 说明书8页 附图2页
CN 115115784 A
2022.09.27
CN 115115784 A
1.一种三维人脸重建模型训练方法, 其特 征在于, 包括以下步骤:
获取包含多张人脸图像的人脸数据集、 以及各 所述人脸图像的特 征点标注信息;
根据所述特征点标注信息, 对所述人脸数据集中的各人脸图像进行处理, 得到训练监
督数据, 其中, 所述训练监督数据包括人脸区域掩模、 投影变换后的标准平均人脸模型、 以
及标准人脸变形信息;
构建用于结合预测到的平均 人脸模型、 以及人脸变形信 息进行三维人脸重建的初始三
维人脸重建模型, 所述初始三维人脸重建模型由多个具备相同结构的Encoder ‑Decoder网
络构成, 所述Encoder ‑Decoder网络在编码层和解码层的跳跃连接中加入了通道 ‑空间注意
力感知机制;
基于所述人脸图像、 以及对应的人脸区域掩模进行模型训练, 训练过程中, 结合用于反
映预测结果与对应标准结果之 间的偏差程度的目标损失函数进行约束, 并在达到训练结束
条件时, 得到目标三维人脸重建模型。
2.根据权利要求1所述的方法, 其特征在于, 在对所述人脸数据集中的各人脸图像进行
人脸掩模处理时, 所述方法包括:
根据所述特 征点标注信息, 确定各 所述人脸图像在世界坐标系上的三维顶点 集合;
根据各所述人脸图像在世界坐标系上的三维顶点集合S, 通过下述公式计算得到相应
人脸图像在图像坐标系上的三维顶点 集合V:
V=f·R·S+t;
其中, f表示缩放比例因子, R和t分别表示由人脸数据集中的3DMM姿势参数计算得到的
旋转矩阵和平 移向量;
结合各所述人脸图像在图像坐标系上的三维顶点集合, 构建图像坐标系下的人脸区域
掩模。
3.根据权利要求1所述的方法, 其特征在于, 在对所述人脸数据集中的各人脸图像进行
投影变换处理时, 所述方法包括:
获取对应人脸图像的平均人脸模型, 并对所述平均人脸模型进行投影变换处理, 得到
投影变换后的标准平均人脸模型;
结合所述标准平均人脸模型、 与对应在图像坐标系上的人脸三维顶点位置之间的差
异, 确定投影 变换后的标准人脸变形信息 。
4.根据权利要求1所述的方法, 其特征在于, 所述Encoder ‑Decoder网络在编码层和解
码层的跳跃 连接中, 嵌入了应用通道 ‑空间注意力感知机制的人脸区域注意力网络, 其中:
所述人脸 区域注意力网络将人脸区域掩膜作为训练监督数据, 经由编码层输出的编码
特征图经过所述人脸区域注意力网络后, 将得到相应的可 见性分数 特征图;
在所述人脸区域注意力网络之后, 还连接有用于对所述的可见性分数特征图的空间分
辨率进行调整, 以使得所述可见性分数特征图与所述编 码特征图的空间分辨率保持一致的
Max‑pooling层。
5.根据权利要求4所述的方法, 其特征在于, 所述人脸区域注意力网络由用于转换特征
图通道数量的全连接层、 以及多层应用了通道 ‑空间注意力感知机制的标准卷积块组成, 并
经由sigmoid函数激活输出每个像素点的人脸区域可见性, 其中, 通过以下公 式实施特征提
取操作:权 利 要 求 书 1/3 页
2
CN 115115784 A
2Mc(F)=σ(MLP(AvgPo ol(F))+MLP(MaxPo ol(F)));
其中, F∈RCxHxW表示输入特征图, Mc(*)表示对 “*”进行通道注意力处理, Ms(*)表示对 “*”
进行空间注意力处理; AvgPool(*)表示对 “*”进行平均池化处理, MaxPool(*)表示对 “*”进
行最大池化处理; MLP(*)表示共享权重处理, σ 表示sigmoi d函数; Conv(*)表示一个标准的
卷积操作, FAvg、 FMax分布表示沿着通道轴应用平均池化操作、 以及最大值池化操作对应得到
的2D map。
6.根据权利要求4所述的方法, 其特征在于, 所述初始三维人脸重建模型由两个具备相
同结构的Encoder ‑Decoder网络构成;
所述Encoder ‑Decoder网络的编码网络部分, 由多层加入了通道注意力机制的残差块
模块组成, 所述残差块模块的主要特征提取通道由1x1标准卷积层、 3x3标准卷积层、 1x1标
准卷积层、 以及通道 注意力提取操作层组成。
7.根据权利要求4所述的方法, 其特征在于, 在通过Encoder ‑Decoder网络进行三维人
脸重建时, 所述方法包括:
由跳跃连接中的编码层对输入的人脸图像进行处 理, 得到编码特 征图;
将所述编码特征图作为所述人脸区域注意力网络的输入, 由所述人脸 区域注意力网络
进行处理, 得到可 见性分数 特征图;
通过以下公式对得到的可见性分数特征图、 以及所述编码特征图进行关联, 得到相应
的可见区域特 征图Fatt:
Fatt=F⊙(1+A);
其中, A表示得到的可 见性分数 特征图, F表示所述编码特 征图;
将所述可见区域特征图与跳跃连接中经由解码层的最后一个转置卷积块后输出的特
征图连接在一 起, 得到所需的输出 特征图。
8.根据权利要求1所述的方法, 其特征在于, 在以UV位置贴图的形式表示预测结果时,
所述目标损失函数的计算公式包括:
上式中, h和w表示UV位置贴图的高度和宽度; N(u,v)表示基于UV空间中的位置坐标点
(u,v)预测到的预测结果;
表示与所述预测结果相对应的训练监督数据即标准结
果, M(u,v)表示UV空间中的位置坐标点(u,v)附带的权重值; 其中, 为保证预测结果的精准
度, 对投影变换后的平均人脸模型施加以下针对landmark点 ‑人脸关键特征点的约束项
Llrr:权 利 要 求 书 2/3 页
3
CN 115115784 A
3
专利 一种三维人脸重建模型训练方法、系统及可读存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:44:35上传分享