(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210780423.4
(22)申请日 2022.07.05
(65)同一申请的已公布的文献号
申请公布号 CN 114863035 A
(43)申请公布日 2022.08.05
(73)专利权人 南京理工大 学
地址 210094 江苏省南京市玄武区孝陵卫
街200号
(72)发明人 王康侃 丛素旭 李绍园
(74)专利代理 机构 青岛锦佳专利代理事务所
(普通合伙) 37283
专利代理师 朱玉建
(51)Int.Cl.
G06T 17/00(2006.01)
G06T 19/20(2011.01)G06T 7/70(2017.01)
G06T 7/20(2017.01)
G06F 3/01(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113689539 A,2021.1 1.23
CN 113112592 A,2021.07.13
CN 114581571 A,202 2.06.03
审查员 张永辉
(54)发明名称
一种基于隐式表征的三维人体运动捕捉和
生成方法
(57)摘要
本发明公开了一种基于隐式表征的三维人
体运动捕捉和生成方法, 其包括: 建立三维人体
的标准模板空间, 使用预先建立的三维人体模板
网格训练包含占据网络的神经辐射场, 获得标准
模板空间NeRF; 对输入视频的每一帧图像建立变
形场, 将标准模板空间中的三维人体模板网格变
形到观察帧空间; 在观察帧空间取采样点, 并通
过逆变形场变换到标准模板空间的对应点的坐
标, 输入标准模板空间NeRF查询颜色和密度, 渲
染获得人体合成图像; 通过最小化人体合成图像
与观察帧图像之间的距离优化标准模板空间
NeRF和变形场, 实现三维人体运动捕捉和动态人
体外观恢复以及选定新的相机视角 进行图像合
成。 本发明重建几何精度高且能合成任意视角的
逼真图像 。
权利要求书3页 说明书7页 附图4页
CN 114863035 B
2022.09.20
CN 114863035 B
1.一种基于隐式表征的三维人体运动捕捉和生成方法, 其特 征在于,
包括如下步骤:
步骤1. 建立三维人体的标准模板空间, 使用预先建立的三维人体模板网格训练包含
占据网络的神经辐射场, 获得 标准模板空间NeRF;
步骤2. 使用非刚性变形和骨架驱动的变形对输入视频的每一帧图像建立变形场, 将
标准模板空间中的三维人体模板网格 变形到观察帧空间;
步骤3. 在观察帧空间取采样点, 将采样点的坐标通过逆变形场变换到标准模板空间
下对应点的坐标, 然后输入到标准模板空间NeRF查询颜色, 渲染 获得人体合成图像;
步骤4. 通过最小化人体合成图像与观察帧图像之间的距离, 来联合优化标准模板空
间NeRF和变形场, 实现三维人体的运动捕捉和动态人体的外观的恢复;
步骤5. 利用训练好的标准模板空间NeRF和变形场, 选 定新的相机 视角进行图像合成。
2.根据权利要求1所述的基于隐式表征的三维人体运动捕捉和生成方法, 其特 征在于,
所述步骤1中, 标准模板空间NeRF包括几何模型和颜色模型;
标准模板空间NeRF的几何模型在时序变化的人体图像合成时保持不变;
在定义标准模板空间NeRF的颜色模型时, 对输入视频的每一帧图像定义一个隐式外观
编码, 在标准模板空间NeRF的颜色模型中 融入隐式外观编码, 表达并恢复时序变化的外观。
3.根据权利要求2所述的基于隐式表征的三维人体运动捕捉和生成方法, 其特 征在于,
所述步骤1具体为:
标准模板空间NeRF的几何模型由包含占据网络的神经辐射场表示, 在神经辐射场的密
度输出层后添加一层占据网络层, 将密度映射到{0, 1};
标准模板空间NeRF的占据网络模型由函数 Fo定义: o(x)= Fo(rx(x));
其中, o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据;
rx(x)表示空间坐标的位置编码, 其定义如下:
rx(x)=[sin(x),cos(x),sin(2x),cos(2x), …, sin(2m‑1x),cos(2 m‑1x)]T, 其中, m为自
然数;
对输入视频的每一帧图像定义 一个隐式外观编码, 则颜色模型由函数 Fc定义:
ci(x)= Fc(rx(x), rd(d), ψi); 其中, ci(x)表示颜色模型输出的在x坐标处的颜色, d表
示观察x坐标的视角方向, 即x坐标 所在射线的方向; ψi表示每一帧的隐式外观编码;
rd(d)表示视角方向的位置编码, 其定义如下:
rd(d)=[sin(d),cos(d),sin(2d),cos(2d), …, sin(2n‑1d),cos(2 n‑1d)]T, 其中, n为自
然数。
4.根据权利要求3所述的基于隐式表征的三维人体运动捕捉和生成方法, 其特 征在于,
所述步骤2具体为:
步骤2.1. 非刚性变形;
首先通过嵌入变形对非刚性变形建模, 该嵌入变形基于变形图计算一个弯曲场; 一个
嵌入变形图中包 含K个节点, 并且在三维人体模板网格中能够被自动建立;
节点变换由欧拉角A∈Rk×3和平移向量T∈Rk×3参数化;
对于三维人体模板网格的每 个顶点v, 经 过非刚性变形后的新 坐标y由下述公式得到:
y=∑k∈N(v)w(v,gk)[R(Ak)(v‑gk)+gk+Tk];权 利 要 求 书 1/3 页
2
CN 114863035 B
2其中, N(v)表示影响到顶点v的邻域顶点 集合, k∈N(v);
gk表示第k个顶点的坐标;
Ak和Tk分别表示第k个邻域顶点变形 所需的欧拉角和平 移向量;
R(·) : R3→SO(3) 将欧拉角转换为旋转矩阵;
w(v,gk)是顶点v的第k个邻域顶点的变形权 重, w(v,gk)的值由如下公式计算:
w(v,gk)=(1‑||v‑gk||/dmax)2;
其中, dmax表示顶点v到k个最近顶点的距离;
非刚性变形 中的欧拉角A和平移向量T都使用一个多层感知机模型训练获得, 同时多
层感知机还反向传播优化 一个隐式变形编码w;
对于第i帧非刚性变形的欧拉角Ai, 平移向量Ti和隐式变形编码wi, 由函数FA,T定义:
FA,T: wi→(Ai, Ti);
步骤2.2. 估计骨架驱动的变形;
首先对输入视频的每一帧图像估计一个SMPL模型, 并从估计的SMPL模型中计算蒙皮权
重w(y)j, w(y)j表示顶点y的第j个部分的蒙皮权 重;
人体的参数SMPL模型使用85维向量表示Θ=( θ, β );
其中, β ∈R10, θ∈R75分别表示人体的形状参数和各个关节的相对角度;
基于非刚性变形获得的三维人体网格, 进一步应用线性蒙皮变形来进行变形, 对于三
维人体网格的每 个顶点y, 其变形后的观察帧空间的顶点
的计算公式如下:
=[∑J
j=1w(y)j Gj]y; 其中, J是人体关节的数量; w(y)j表示顶点y的第j个部分的蒙皮
权重, Gj∈SE(3) 表示刚性变换矩阵;
通过以上两次变形 , 将标准模板空间下的三维人体模板网格变形到与观察帧相同的
姿态。
5.根据权利要求 4所述的基于隐式表征的三维人体运动捕捉和生成方法, 其特 征在于,
所述步骤3具体为:
为了获得输入视频中第i帧图像时的动态NeRF, 即人体在不同时刻的颜色和密度, 首先
使用xcan=Ti(x)将观察帧空间的采样点x转换到标准模板空间的点xcan;
其中, Ti是三维人体网格 变形场的逆变换;
根据相机位置和拍摄视角, 由相机向观察帧空间发射多条射线, 每条射线r对应最终人
体合成图像上的一个 像素, 然后在每条射线上采样;
一条射线上的采样点表示 为: r(t) = o + td;
其中, o∈R3为射线起点, d∈R3为射线方向, t为采样间隔;
将观察帧空间中的采样点坐标经过逆变形场变换到标准模板空间对应的坐标, 然后输
入标准模板空间NeRF, 查询各点的颜色和密度, 通过体素渲染 公式获得像素颜色。
6.根据权利要求5所述的基于隐式表征的三维人体运动捕捉和生成方法, 其特 征在于,
所述观察帧空间中的采样点逆变形的过程 为:
对于观察帧空间 的一个采样点x, 首先搜索与该采样点x距离最近的SMPL模型的顶点v,
然后使用逆线性 蒙皮变换采样点x的坐标, 具体公式如下:
=[∑J
j=1w(v)j Gj]‑1x; 其中,
表示变形后的采样点坐标, w(v)j表示顶点v的第j个部
分的蒙皮权 重, Gj∈SE(3) 表示刚性变换矩阵;权 利 要 求 书 2/3 页
3
CN 114863035 B
3
专利 一种基于隐式表征的三维人体运动捕捉和生成方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:44:48上传分享