日前,因为国际货代物流软件英伟达CEO黄仁勋在一场演讲中用了14秒的“数字人”视频引发了广泛的关注,从而把“数字人”乃至“元宇宙”从专业人士带入到大众视野。
澎湃新闻记者日前对话了英伟达三位技术专家,英伟会计出纳软件达中国区高级技术市场经理施澄秋、英伟达高级解决方案架构师宋毅明和英伟达中国区传媒娱乐行业经理何展(文中统一用英伟达技术专家来称呼)来讲述什么是数字人、什么是元宇宙,元宇宙离我们到底有多远,元宇宙会带来那些改变?
英伟达将自己定位为提供基础底空运货代软件层服务架构的。元宇宙概念平台Omniverse像是一个工具箱,也是一个技术平台底座,集合了英伟达过去二十多年在AI、HPC和图形各方面的技术、算法、标准。英伟达希望搭建一个技术平台,服务艺术家、创造者以及一些C端、B端的用户。
英伟达技术专家表示,Omniverse为“数字人”引入了最接近“人”的表情、语言系统,相比此前繁琐的海运货代软件技术环节,现在只需要通过基于AI深度神经网络感知能力的英伟达会话式人工智能系统,把文字变成丰富面部表情,再基于AI实时渲染系统叠加到虚拟人上。英伟达认为,当可以实现数字人和真实人类之间的沟通交互,实现真实和虚拟世界交互时,也就完美契合了元宇宙概念,这个阶段要在五到十年后。
英伟达技术专家:在演讲中黄仁勋有十几秒的虚拟分身,ERP软件可以看作一个数字人。其实可以把数字人概念当成卡通人物或虚拟角色,它已经存在已久。比如虚拟偶像开演唱会,日本动漫行业也推出了好几个虚拟偶像,形象很丰满。这些和传统动画片人物的最大分别在于,其不仅利用了3D渲染技术让它看起来更像一个人,还利用了全息技术实现裸眼3D,让它栩栩如生地站在舞台上唱歌,这些都是传统概念当中虚拟人必备的一些元素。
但在NVIDIA看来,虚拟人是虚拟出来的,应该更接近一个“人”,即数字人(Digital Human)。人类和虚拟角色、卡通人物最大的区别是有感情、能够体会到喜怒哀乐,且能够把喜怒哀乐实时地通过语言、表情等来体现,这也是虚拟人的精髓。也就是说,虚拟人的外形要栩栩如生,这就要利用英伟达GPU技术来渲染,以实现皮肤、毛发、衣物、配饰符合自然界物理定律。如果这个人物在跳舞的时候项链不动、贴在身上,那就不是虚拟人了,而是普通的3D动画。并且如果十年前推出的虚拟角色和二十年后推出的虚拟角色头发都一样,那也不切实际,年轻人、中年人、老年人的毛发系统是不同的,皮肤随着年龄的增长也是不一样的。
Omniverse(英伟达推出的以元宇宙概念为基础虚拟协作和模拟平台)中的OmniSurface系统能够渲染不同的材质和表面,针对数字人也有一系列不同的渲染机制。利用GPU渲染可以让数字人更接近真实的人类,这是数字人的第一个方面。
第二个方面,RTX Render技术,即实时光线追踪技术。把数字人放到虚拟环境集运转运软件中后,环境有光照系统,也有传统的路径追踪系统,虚拟人会和周遭环境进行互动,虚拟人和环境的多次光线迭代也会给整个环境全局照明带来影响, OmniSurface加上RTX Render可以实现实时的数字人(Digital Human)渲染,以及材料、POV的渲染,从元宇宙概念来看整个虚拟世界,模拟城市、人员、建筑等一系列复杂的生态环境系统都可以通过Omniverse完成,这是数字人和环境的互动。
最重要的是,为数字人引入最接近“人”的喜怒哀乐——表情、语言系统。Audio2Face只需要一段文字,便能够通过基于AI深度神经网络感知能力的英伟达会话式人工智能系统,来感知语言下的情绪,把一段文字变成丰富的面部表情,再自动基于AI实时渲染系统叠加到虚拟人上。而以前则要进行配音、口形适配,并考虑当前的语态、语境,进行面部表情分离,重新渲染面部表情,整个环节太繁琐,时间、人力、物力成本都过于巨大。
现在,结合Audio2Face、OmniSurface和RTX Render能够实时地把数字人做得更逼真更详实,不仅是一个虚拟内容,更注重的是用数字化的形式呈现“人类”。在Omniverse加持之下,能够满足过去数十年我们对虚拟人的设想,通过当前的软硬件技术以及网络云原生的Omniverse平台,以一站式解决方案把数字人包装得更逼真、更详实、更符合自然界的物理定律,无论是人本身的皮肤、毛发,还是身上的配饰、衣物,甚至与周遭的环境、光线的互动,都能更好地实现。
随着每个数字人周遭环境的放大,以及日后GPU算力、Omniverse平台能力的不断提升和版本迭代,我们最终能够实现元宇宙的构想。
澎湃新闻:英伟达数字人的路线图是什么?什么时候能做到假人和真人之间的交互?
英伟达技术专家:英伟达在硅谷有专门的数字人研究团队,有非常清晰的路线图。
第一阶段,要把它做像了,利用CG(计算机动画)技术和实时光线追踪渲染技术把它做像了。比如14秒黄仁勋数字人分身,这一阶段已经非常成熟到位了,很多平台都可以做到,只要有非常懂CG艺术的专家和设计者,将相关的动物采集数据、镜头,甚至血液流动算法等堆叠起来即可。
第二阶段,通过一些要素驱动数字虚拟人。现在国际上有比较流行的三个要素可以驱动数字虚拟人:一类是视频,类似短视频,做一些视频人物的动作,通过视频驱动第一阶段做出来的很像的数字虚拟人。另一类是“中之人”,这个概念来自日本,现在最贴切的展示方式就是穿动捕服的演员,就像大片拍摄中通过“中之人”驱动数字虚拟人。还有一类就是语音语义,英伟达数字人研究院就选定了语音语义这个要素作为驱动数字人的技术切入点,为什么选它呢?这三类中最容易获得的就是语音语义,而且很方便,通过一段语音或者一段文字就可以驱动数字虚拟人。
英伟达在这里扮演的是什么角色呢?这里介绍刚刚更名的开源平台——NVIDIA Riva,是通过算法优化的平台,其中有一个功能模块叫做Audio2Face,可以通过一段音频驱动数字人面部表情的动捕,就像正常人说话一样,实现口音口型和面部表情、细微动作。所以黄仁勋演讲中,别看短短14秒,里面包含了很多技术,其中就有一段Audio2Face,所有的数字通过动捕方式采集好之后,模拟口形、动捕演员的驱动都会涉及到这些要素。
第三阶段就比较升华,每个阶段都需要两到三年,我们认为第三阶段才是数字虚拟人真正达到应用级别产品化的阶段,应该是在五到十年后。
到了第三阶段,我们可以实现数字人和真实人类之间的沟通交互,也可以实现数字人和数字人之间的沟通交互,这个也叫做真实和虚拟世界的交互,其实也完美地契合了元宇宙的概念。
澎湃新闻:真正进入虚拟和真人之间的交互的第三阶段需要具备哪些条件?
英伟达技术专家:第一阶段其实已经很成熟了,已经有很多平台可以做到。第二阶段属于初期,我们某些客户合作伙伴都已经做到了初级阶段,很多算法已经交付给了市场。大家可以看到很多语音播报员背后的逻辑就是第二阶段的技术。我们认为这一阶段过两到三年就会进入成熟期。
再过两到三年以后就会进入第三阶段初始的发展期和萌芽期,五年左右的时间点是一个非常重要的时间点,那个时间段英伟达GPU平台的算力,包括自己各种算法的迭代,到那个时候也会有非常大的改进和提高。当大家在生态系统当中做数字虚拟人平台和创作者时候,这三五年一定会有非常大的训练集驱动走到3.0时代。五年那个时间点才是进入3.0时代真正有可能看到,就是真正能够用的真实和物理世界交互的数字人应用出现的时间点。
举个非常有意思的例子,大家知道现在去银行的网点,柜台都超不过五十到一百次,银行现在正在考虑把所有的网点变成数字虚拟人,通过AR技术替换现在人工窗口的营业员。这些应用在各行各业,所有的企业都已经看到了,这就是我们认为数字虚拟人市场需求这么强劲的原因,也是因为客户和市场驱动我们挑战新的技术。
澎湃新闻:刚才讲到虚拟数字人的技术应用,比如银行、政务和商务的场合,这里面有那些场景是你们看到可以率先落地的?
英伟达技术专家:有很多职业,可以和大家分享一下英伟达已经做过的数字虚拟人案例。比如数字主持人,就像《飞向月球》第二季,我们重建了央视某纪录片频道的著名主持人。然后还有数字导购员、数字4S店销售、数字导游,包括现在数字的窗口营业员。还有一类非常有意思,如果大家关注Instagram这些国外比较流行的社交媒体网上有数字明星。去年疫情最严重的时候,日本曾经做过一个调研,日本市场最受欢迎的一个明星居然是一个数字虚拟人,她在Twitter上的粉丝高达数百万,所以营销IP的公司相当于打造了一个数字模拟器。包括大家看到电影《双子杀手》也是一种数字人的体验形式,还有国内的数字王国“邓丽君” “张国荣”的数字IP应用,我们看到了很多很多,就像雨后春笋一般出来。流媒体平台上面也是越来越多。
澎湃新闻:Omniverse是英伟达推出的全球首个为元宇宙建立提供基础的协作平台,你们推出Omniverse的初衷和契机是什么?
英伟达技术专家:今年并不是Omniverse的元年,英伟达在2019年就提出了Omniverse,并且已经为这个平台布局了很久。大家都知道Metaverse即元宇宙的概念,其核心技术要素包括AI、区块链、VR/AR/MR等XR技术、可视化的渲染技术等。这些方面的技术在最近几年处于集中爆发期,并且现在我们进入了5G时代,这为真实世界和数字虚拟世界的交互提供了足够的带宽以及交互的技术基础。这些因素促进1992年提出的元宇宙概念如今成为了一个火热的话题。英伟达对这些技术都有所涉及,所以在此契机下提出了英伟达所理解的元宇宙概念平台——Omniverse。我个人认为它像是英伟达为创建元宇宙数字化虚拟空间的奇点,也可称之为技术平台底座,集合了英伟达过去二十多年在AI、HPC和图形各方面的技术、算法、标准,又像是一个工具箱,大家在创造数字化虚拟空间时,需要螺丝就可以在这里拿一个螺丝,需要一个剪刀就拿一个剪刀。英伟达希望搭建一个技术平台,服务艺术家、创造者以及一些C端、B端的用户,以实现元宇宙。