专利 一种基于隐式表征的三维人体运动捕捉和生成方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210780423.4 (22)申请日 2022.07.05 (65)同一申请的已公布的文献号申请公布号 CN 114863035 A (43)申请公布日 2022.08.05 (73)专利权人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫街200号 (72)发明人王康侃　丛素旭　李绍园　 (74)专利代理机构青岛锦佳专利代理事务所 (普通合伙) 37283 专利代理师朱玉建 (51)Int.Cl. G06T 17/00(2006.01) G06T 19/20(2011.01)G06T 7/70(2017.01) G06T 7/20(2017.01) G06F 3/01(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113689539 A,2021.1 1.23 CN 113112592 A,2021.07.13 CN 114581571 A,202 2.06.03 审查员张永辉 (54)发明名称一种基于隐式表征的三维人体运动捕捉和生成方法 (57)摘要本发明公开了一种基于隐式表征的三维人体运动捕捉和生成方法，其包括：建立三维人体的标准模板空间，使用预先建立的三维人体模板网格训练包含占据网络的神经辐射场，获得标准模板空间NeRF；对输入视频的每一帧图像建立变形场，将标准模板空间中的三维人体模板网格变形到观察帧空间；在观察帧空间取采样点，并通过逆变形场变换到标准模板空间的对应点的坐标，输入标准模板空间NeRF查询颜色和密度，渲染获得人体合成图像；通过最小化人体合成图像与观察帧图像之间的距离优化标准模板空间 NeRF和变形场，实现三维人体运动捕捉和动态人体外观恢复以及选定新的相机视角进行图像合成。本发明重建几何精度高且能合成任意视角的逼真图像。权利要求书3页说明书7页附图4页 CN 114863035 B 2022.09.20 CN 114863035 B 1.一种基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，包括如下步骤：步骤1. 建立三维人体的标准模板空间，使用预先建立的三维人体模板网格训练包含占据网络的神经辐射场，获得标准模板空间NeRF；步骤2. 使用非刚性变形和骨架驱动的变形对输入视频的每一帧图像建立变形场，将标准模板空间中的三维人体模板网格变形到观察帧空间；步骤3. 在观察帧空间取采样点，将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标，然后输入到标准模板空间NeRF查询颜色，渲染获得人体合成图像；步骤4. 通过最小化人体合成图像与观察帧图像之间的距离，来联合优化标准模板空间NeRF和变形场，实现三维人体的运动捕捉和动态人体的外观的恢复；步骤5. 利用训练好的标准模板空间NeRF和变形场，选定新的相机视角进行图像合成。 2.根据权利要求1所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，所述步骤1中，标准模板空间NeRF包括几何模型和颜色模型；标准模板空间NeRF的几何模型在时序变化的人体图像合成时保持不变；在定义标准模板空间NeRF的颜色模型时，对输入视频的每一帧图像定义一个隐式外观编码，在标准模板空间NeRF的颜色模型中融入隐式外观编码，表达并恢复时序变化的外观。 3.根据权利要求2所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，所述步骤1具体为：标准模板空间NeRF的几何模型由包含占据网络的神经辐射场表示，在神经辐射场的密度输出层后添加一层占据网络层，将密度映射到{0, 1}；标准模板空间NeRF的占据网络模型由函数 Fo定义： o(x)= Fo(rx(x))；其中， o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据； rx(x)表示空间坐标的位置编码，其定义如下： rx(x)=[sin(x),cos(x),sin(2x),cos(2x), …, sin(2m‑1x),cos(2 m‑1x)]T，其中， m为自然数；对输入视频的每一帧图像定义一个隐式外观编码，则颜色模型由函数 Fc定义： ci(x)= Fc(rx(x), rd(d), ψi)；其中， ci(x)表示颜色模型输出的在x坐标处的颜色， d表示观察x坐标的视角方向，即x坐标所在射线的方向； ψi表示每一帧的隐式外观编码； rd(d)表示视角方向的位置编码，其定义如下： rd(d)=[sin(d),cos(d),sin(2d),cos(2d), …, sin(2n‑1d),cos(2 n‑1d)]T，其中， n为自然数。 4.根据权利要求3所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，所述步骤2具体为：步骤2.1. 非刚性变形；首先通过嵌入变形对非刚性变形建模，该嵌入变形基于变形图计算一个弯曲场；一个嵌入变形图中包含K个节点，并且在三维人体模板网格中能够被自动建立；节点变换由欧拉角A∈Rk×3和平移向量T∈Rk×3参数化；对于三维人体模板网格的每个顶点v，经过非刚性变形后的新坐标y由下述公式得到： y=∑k∈N(v)w(v,gk)[R(Ak)(v‑gk)+gk+Tk]；权　利　要　求　书 1/3 页 2 CN 114863035 B 2其中， N(v)表示影响到顶点v的邻域顶点集合， k∈N(v)； gk表示第k个顶点的坐标； Ak和Tk分别表示第k个邻域顶点变形所需的欧拉角和平移向量； R(·) ： R3→SO(3) 将欧拉角转换为旋转矩阵； w(v,gk)是顶点v的第k个邻域顶点的变形权重， w(v,gk)的值由如下公式计算： w(v,gk)=(1‑||v‑gk||/dmax)2；其中， dmax表示顶点v到k个最近顶点的距离；非刚性变形中的欧拉角A和平移向量T都使用一个多层感知机模型训练获得，同时多层感知机还反向传播优化一个隐式变形编码w；对于第i帧非刚性变形的欧拉角Ai，平移向量Ti和隐式变形编码wi，由函数FA,T定义： FA,T： wi→(Ai, Ti)；步骤2.2. 估计骨架驱动的变形；首先对输入视频的每一帧图像估计一个SMPL模型，并从估计的SMPL模型中计算蒙皮权重w(y)j， w(y)j表示顶点y的第j个部分的蒙皮权重；人体的参数SMPL模型使用85维向量表示Θ=( θ, β )；其中， β ∈R10， θ∈R75分别表示人体的形状参数和各个关节的相对角度；基于非刚性变形获得的三维人体网格，进一步应用线性蒙皮变形来进行变形，对于三维人体网格的每个顶点y，其变形后的观察帧空间的顶点的计算公式如下： =[∑J j=1w(y)j Gj]y；其中， J是人体关节的数量； w(y)j表示顶点y的第j个部分的蒙皮权重， Gj∈SE(3) 表示刚性变换矩阵；通过以上两次变形，将标准模板空间下的三维人体模板网格变形到与观察帧相同的姿态。 5.根据权利要求 4所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，所述步骤3具体为：为了获得输入视频中第i帧图像时的动态NeRF，即人体在不同时刻的颜色和密度，首先使用xcan=Ti(x)将观察帧空间的采样点x转换到标准模板空间的点xcan；其中， Ti是三维人体网格变形场的逆变换；根据相机位置和拍摄视角，由相机向观察帧空间发射多条射线，每条射线r对应最终人体合成图像上的一个像素，然后在每条射线上采样；一条射线上的采样点表示为： r(t) = o + td；其中， o∈R3为射线起点， d∈R3为射线方向， t为采样间隔；将观察帧空间中的采样点坐标经过逆变形场变换到标准模板空间对应的坐标，然后输入标准模板空间NeRF，查询各点的颜色和密度，通过体素渲染公式获得像素颜色。 6.根据权利要求5所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，所述观察帧空间中的采样点逆变形的过程为：对于观察帧空间的一个采样点x，首先搜索与该采样点x距离最近的SMPL模型的顶点v，然后使用逆线性蒙皮变换采样点x的坐标，具体公式如下： =[∑J j=1w(v)j Gj]‑1x；其中，表示变形后的采样点坐标， w(v)j表示顶点v的第j个部分的蒙皮权重， Gj∈SE(3) 表示刚性变换矩阵；权　利　要　求　书 2/3 页 3 CN 114863035 B 3

专利 一种基于隐式表征的三维人体运动捕捉和生成方法

专利一种基于隐式表征的三维人体运动捕捉和生成方法