专利 一种三维人脸重建模型训练方法、系统及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210852098.8 (22)申请日 2022.07.20 (71)申请人广东工业大学地址 510006 广东省广州市东风东路729号 (72)发明人罗玉　杨超林　凌捷　柳毅　 (74)专利代理机构北京清控智云知识产权代理事务所 (特殊普通合伙) 11919 专利代理师管士涛 (51)Int.Cl. G06T 17/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06V 40/16(2022.01) (54)发明名称一种三维人脸重建模型训练方法、系统及可读存储介质 (57)摘要本申请实施例提供的一种三维人脸重建模型训练方法、系统及可读存储介质，该方法包括获取包含多张人脸图像的人脸数据集、以及各人脸图像的特征点标注信息；根据特征点标注信息，对各人脸图像进行处理，得到训练监督数据，训练监督数据包括人脸区域掩模、投影变换后的标准平均人脸模型、及标准人脸变形信息；构建用于结合预测到的平均人脸模型、以及人脸变形信息进行三维人脸重建的初始三维人脸重建模型，初始三维人脸重建模型由多个具备相同结构的Encoder ‑Decoder网络构成， Encoder ‑Decoder 网络在编码层和解码层的跳跃连接中加入了通道‑空间注意力感知机制；基于人脸图像、以及对应的人脸区域掩模进行模型训练，并在达到训练结束条件时，得到目标三维人脸重建模型。权利要求书3页说明书8页附图2页 CN 115115784 A 2022.09.27 CN 115115784 A 1.一种三维人脸重建模型训练方法，其特征在于，包括以下步骤：获取包含多张人脸图像的人脸数据集、以及各所述人脸图像的特征点标注信息；根据所述特征点标注信息，对所述人脸数据集中的各人脸图像进行处理，得到训练监督数据，其中，所述训练监督数据包括人脸区域掩模、投影变换后的标准平均人脸模型、以及标准人脸变形信息；构建用于结合预测到的平均人脸模型、以及人脸变形信息进行三维人脸重建的初始三维人脸重建模型，所述初始三维人脸重建模型由多个具备相同结构的Encoder ‑Decoder网络构成，所述Encoder ‑Decoder网络在编码层和解码层的跳跃连接中加入了通道 ‑空间注意力感知机制；基于所述人脸图像、以及对应的人脸区域掩模进行模型训练，训练过程中，结合用于反映预测结果与对应标准结果之间的偏差程度的目标损失函数进行约束，并在达到训练结束条件时，得到目标三维人脸重建模型。 2.根据权利要求1所述的方法，其特征在于，在对所述人脸数据集中的各人脸图像进行人脸掩模处理时，所述方法包括：根据所述特征点标注信息，确定各所述人脸图像在世界坐标系上的三维顶点集合；根据各所述人脸图像在世界坐标系上的三维顶点集合S，通过下述公式计算得到相应人脸图像在图像坐标系上的三维顶点集合V： V＝f·R·S+t；其中， f表示缩放比例因子， R和t分别表示由人脸数据集中的3DMM姿势参数计算得到的旋转矩阵和平移向量；结合各所述人脸图像在图像坐标系上的三维顶点集合，构建图像坐标系下的人脸区域掩模。 3.根据权利要求1所述的方法，其特征在于，在对所述人脸数据集中的各人脸图像进行投影变换处理时，所述方法包括：获取对应人脸图像的平均人脸模型，并对所述平均人脸模型进行投影变换处理，得到投影变换后的标准平均人脸模型；结合所述标准平均人脸模型、与对应在图像坐标系上的人脸三维顶点位置之间的差异，确定投影变换后的标准人脸变形信息。 4.根据权利要求1所述的方法，其特征在于，所述Encoder ‑Decoder网络在编码层和解码层的跳跃连接中，嵌入了应用通道 ‑空间注意力感知机制的人脸区域注意力网络，其中：所述人脸区域注意力网络将人脸区域掩膜作为训练监督数据，经由编码层输出的编码特征图经过所述人脸区域注意力网络后，将得到相应的可见性分数特征图；在所述人脸区域注意力网络之后，还连接有用于对所述的可见性分数特征图的空间分辨率进行调整，以使得所述可见性分数特征图与所述编码特征图的空间分辨率保持一致的 Max‑pooling层。 5.根据权利要求4所述的方法，其特征在于，所述人脸区域注意力网络由用于转换特征图通道数量的全连接层、以及多层应用了通道 ‑空间注意力感知机制的标准卷积块组成，并经由sigmoid函数激活输出每个像素点的人脸区域可见性，其中，通过以下公式实施特征提取操作：权　利　要　求　书 1/3 页 2 CN 115115784 A 2Mc(F)＝σ(MLP(AvgPo ol(F))+MLP(MaxPo ol(F)))；其中， F∈RCxHxW表示输入特征图， Mc(*)表示对 “*”进行通道注意力处理， Ms(*)表示对 “*” 进行空间注意力处理； AvgPool(*)表示对 “*”进行平均池化处理， MaxPool(*)表示对 “*”进行最大池化处理； MLP(*)表示共享权重处理， σ 表示sigmoi d函数； Conv(*)表示一个标准的卷积操作， FAvg、 FMax分布表示沿着通道轴应用平均池化操作、以及最大值池化操作对应得到的2D map。 6.根据权利要求4所述的方法，其特征在于，所述初始三维人脸重建模型由两个具备相同结构的Encoder ‑Decoder网络构成；所述Encoder ‑Decoder网络的编码网络部分，由多层加入了通道注意力机制的残差块模块组成，所述残差块模块的主要特征提取通道由1x1标准卷积层、 3x3标准卷积层、 1x1标准卷积层、以及通道注意力提取操作层组成。 7.根据权利要求4所述的方法，其特征在于，在通过Encoder ‑Decoder网络进行三维人脸重建时，所述方法包括：由跳跃连接中的编码层对输入的人脸图像进行处理，得到编码特征图；将所述编码特征图作为所述人脸区域注意力网络的输入，由所述人脸区域注意力网络进行处理，得到可见性分数特征图；通过以下公式对得到的可见性分数特征图、以及所述编码特征图进行关联，得到相应的可见区域特征图Fatt： Fatt＝F⊙(1+A)；其中， A表示得到的可见性分数特征图， F表示所述编码特征图；将所述可见区域特征图与跳跃连接中经由解码层的最后一个转置卷积块后输出的特征图连接在一起，得到所需的输出特征图。 8.根据权利要求1所述的方法，其特征在于，在以UV位置贴图的形式表示预测结果时，所述目标损失函数的计算公式包括：上式中， h和w表示UV位置贴图的高度和宽度； N(u,v)表示基于UV空间中的位置坐标点 (u,v)预测到的预测结果；表示与所述预测结果相对应的训练监督数据即标准结果， M(u,v)表示UV空间中的位置坐标点(u,v)附带的权重值；其中，为保证预测结果的精准度，对投影变换后的平均人脸模型施加以下针对landmark点 ‑人脸关键特征点的约束项 Llrr：权　利　要　求　书 2/3 页 3 CN 115115784 A 3

专利 一种三维人脸重建模型训练方法、系统及可读存储介质

专利一种三维人脸重建模型训练方法、系统及可读存储介质