首页 > 技术文章 > 深度学习--人脸动作捕捉介绍

leafchen 2020-10-13 15:22 原文

内容来自https://www.zhihu.com/topic/20761446/intro,仅供学习讨论

 

是什么?

面部动作捕捉(Facial Motion Capture),有时也被称为「面部表情捕捉」(Facial Expression Capture)。它是动作捕捉(Motion Capture)技术的一部分,指使用机械装置、相机等设备记录人类面部表情和动作,将之转换为一系列参数数据的过程。

与捕捉由关节点构成、较为稳定的人体动作相比,面部表情更为细微复杂,因此对数据精度要求更高。

CG 电影、大型游戏在预算允许的情况下,倾向于选择捕捉真人面部来完成角色的演出。与人为制作的动画角色表情相比,通过捕捉真人面部动作生成的角色会更具真实感。

1990 年,Lance Williams 在论文《Performance-Driven Facial Animation》中讨论了「一种捕捉真实面部表情用于计算机生成人脸的方法」,这被认为是第一篇讨论面部动作捕捉的论文。[1]

如何实现?

1、基于机械传动

最早的面部动作捕捉主要依靠机械装置跟踪测量面部运动状况。

与人体动作捕捉设备类似,这些面部动作捕捉设备通常由多个关节和刚性连杆组成,关节中装有角度传感器,固定在人的嘴部、眼部等位置。运动产生时,角度传感器可以测的角度的变化,依据连杆的长度计算出固定点在空间中的位置和运动轨迹。

机械式设备的优点是成本低、精度高,可以实时测量。缺点是使用起来不方便,对表演者的表情限制较大。

随着技术的发展,机械式面部动作捕捉设备已退出历史舞台。

代表设备:

1988 年,deGraf/Wahrman 公司开发的「Mike the Talking Head」动作捕捉系统包含了捕捉面部动作的功能,该系统还曾于当年的 SIGGRAPH 上现场展示。[2]

1992 年,SimGraphics 为面部专门开发了面部动作捕捉系统「Face Waldo」,通过固定在双颊、嘴唇、下巴、眉毛等位置的传感器追踪脸部动作。「Face Waldo」辅助完成了任天堂产品发布会上的实时 Mario 形象演出,佩戴该设备的演出者隐藏于幕后,通过屏幕上的 Mario 形象与观众交流。

 

2、基于光学

目前几乎所有的面部动作捕捉设备都基于光学,从数据来源(即光学信息获取设备)上可以分为:

(1)基于二维数据

捕捉面部二维数据及其变化的基础设备是光学镜头。通过算法标记、处理捕捉到的数据,理解人的面部表情及动作,完成虚拟形象的合成。

除数码相机之外,设备也可以是电脑摄像头、手机前置摄像头等移动设备上的摄像头,优点是成本低、易获取、使用方便,缺点是捕捉精度与其他方法相比较低。

FaceRig 是一款使用摄像头就能完成虚拟角色构建的软件

(2)基于三维数据

三维数据即在通过光学镜头获取二维数据的同时,通过一定的手段或设备,获取画面的深度。

a、相机阵列方法

阵列即以一定间距和规则摆放相机,为面部动作捕捉设计的相机阵列通常呈环形。演员需要居于中心点进行拍摄,目的是通过不同视角所获的不同人像,来获取人面部表情及运动的三维数据。

相机阵列的优点是精度高、效果好,缺点是拍摄难度大、设备成本高,演员不能移动,无法在演出的同时使用。

《黑客帝国》中,Hugo 被击打的镜头是由电脑合成的,为了捕捉他的面部表演,五个同步高清摄像机被摆放为环形阵列捕捉他的面部表情,再对皮肤表面、动作变形和环境进行修改和渲染。

b、结构光方法

结构光是最为常见的获取画面深度的方式。在光学镜头之外会配合红外镜头,有时也需要泛光照明灯、泛光感应元件、点阵投影器等辅助设备,来获取人脸的深度信息。

点阵投影器可以向人脸投射肉眼不可见的光点组成的点阵,脸部的凹凸不平会使点阵形状发生变化,红外镜头可以读取点阵图案,再与前置摄像头拍摄到的人脸通过算法相结合,以获得带有深度信息的面部信息。

iPhoneX 的人脸识别使用的是点阵投影器

除了点阵投影,较为常用的方法是在面部绘制或粘贴标记点,帮助进行定位并根据这些点的变化反推动作。

 

在人脸拍摄条件上,可分为有标记点和面部无标记点两种方式:

(1)有标记点

基于标记点的面部动作捕捉系统较为常见,标记点数量不定,由配套使用的设备及系统决定。面部标记数量最多可能达到 350 个,需要与高分辨率相机等设备配合使用。

设备通常为头戴式。这些设备可与姿态捕捉系统配合使用,演员的表演过程连贯不受影响。依拍摄场景、实现方式不同,有时也会改由他人辅助手持拍摄。

标记点可以是绘制的,也可以是粘贴的

电影《极地特快》(The Polar Express)及《贝奥武夫》(Beowulf)的拍摄合成,使用的就是这种方法。

(2)无标记点

无标记点方法通常依靠鼻孔、眼角、唇部、酒窝等标志性位置,确定脸部的表情和运动状况,这种方法最早由 CMU、IBM、曼彻斯特大学等机构通过使用主观表现模型(AAM)、主成分分析(PCA)等模型及技术实现。

无标记点面部动作捕捉系统也能追踪人的瞳孔、眼皮、牙齿咬合等细节,帮助完成动画合成。有时需要对拍摄到的图像进行人工处理,如对极限表情进行面部勾线等等。

Image Metrics 推出的无标记点面部动作捕捉系统曾在《黑客帝国》(The Matrix)、《本杰明·巴顿奇事》(The Curious Case of Benjamin Button)中使用。

此后出现的无标记点面部捕捉系统如 MOVA 、Dynamixyz,都是目前在用的无标记点商用面部动作捕捉系统。

 

需要注意的是,使用何种设备通常由使用场景决定,有无标记点与使用何种设备之间没有必然联系。

如 Faceware 的面部动作捕捉系统使用的是头盔式单个相机,没有红外功能,且不需要标记点[3];推出的 Cara 解决方案使用了多个相机,需要面部有标记点[4];Face/Off 需要向人脸投影[5];MOVA 系统虽然没有使用标记点,但需要在脸部涂抹特殊的荧光涂料。

MOVA 使用的是一种特殊荧光染料,《古墓丽影:崛起》的拍摄时用的是该方法。

能做什么?

使用面部动作捕捉技术的主要目的是虚拟形象合成。虽然能通过这些设备进行交互,但尚未出现较为主流的应用方式。

依据不同场景,面部动作捕捉设备可以:

1、非实时应用场景

  • 电影、电视剧、游戏中的虚拟形象,在捕捉演员的面部动作后通常需要较长时间的调整、渲染和合成,以获得更好的表现效果。

《阿丽塔:战斗天使》是目前面部动作捕捉技术最前沿的案例

这种方法还可以突破演员的年龄限制,在电影《花与爱丽丝杀人事件》筹备拍摄时,此前拍摄《花与爱丽丝》的演员年龄过大,最终使用动作捕捉设备和电脑合成完成了拍摄。

《花与爱丽丝杀人事件》剧照

  • 电视节目有时会使用相关技术在荧幕上演出虚拟形象。

《今晚 80 后》使用相关技术演出「趣多多」形象

  • 近期产生的虚拟偶像也是面部动作捕捉技术的应用之一。

绊爱(A.I.)是全世界最知名的虚拟偶像,其丰富表情是由背后的声优出演的

  • 此外,苹果推出的 animoji 也应用了面部动作捕捉。iPhone X 的前置摄像头旁安装了红外相机扽个设备,用结构光方法捕捉人的面部表情。

 

2、实时应用场景

实时应用通常带有展示性质,如 Vicon 与 Epic Games 合作展示的「Siren」形象,身穿动作捕捉套装和面部动作捕捉设备的演员可以即兴表演,三维「Siren」可以实时复制演员的动作。[6]

虚拟偶像会使用相关设备在线上或线下与用户实时互动。

参考

  1. ^Performance-Driven Facial Animation, Lance Williams, Computer Graphics, Volume 24, Number 4, August 1990
  2. ^A Brief History of Motion Capture for Computer Character Animation,David J. Sturman,SIGGRAPH 94. https://www.siggraph.org/education/materials/HyperGraph/animation/character_animation/motion_capture/history1.htm
  3. ^http://www.facewaretech.com/cameras/markIII
  4. ^https://www.vicon.com/products/camera-systems/cara-1
  5. ^Weise, Thibaut; H. Li; L. Van Gool; M. Pauly (2009), "Face/off: Live Facial Puppetry", ACM Symposium on Computer Animation
  6. ^http://tech.163.com/18/0602/01/DJ8P6F9O00097U7T.html

推荐阅读