老黄家熟悉的厨房又出现了,不过这次英伟达没有像“虚拟数字人”那次卖关子,在11月9日GTC大会(GPU Technology Conference)的主题演讲开始不久厨房就开始逐渐虚化,对,人真了但厨房是假的!场景转换为英伟达大楼。
这次的假厨房和上次的虚拟老黄用到的都是Omniverse技术
英伟达的每次GTC发布会总能给人带来不少惊喜。在大会正式开始之前,英伟达股价在上周便开始应声而涨。有不少投资者认为此次大会可能会凸显英伟达在今年火爆的“元宇宙”主题下的机遇,应为英伟达所擅长的GPU之于元宇宙,就相当于锂电池之于新能源车。虽然老黄在一个半小时多的主题演讲里没有太刻意去强调元宇宙的概念,但本次大会中,确实有不少新技术产品的背后都有元宇宙的影子。
先下结论,老黄的整个主题演讲其实就想传达一个核心观念——英伟达在推进AI在各行各业发展的过程中扮演了关键角色。串起这个观念的内容自然是展示自家的核心技术,简要来说,英伟达展示了自家产品在企业和数据中心AI、对话式AI和自然语言处理领域的最新技术,以及边缘AI的应用,如机器人、医疗和自动驾驶汽车等。
用Omniverse Avatar来做老黄的AI化身
这次主题演讲的重头戏自然跟外界炒的沸沸扬扬元宇宙难脱关系。英伟达在本次GTC大会上发布了NVIDIA Omniverse——一个用于3D工作流程的虚拟世界模拟和协作平台 。其实英伟达在去年12月就发布了Omniverse平台的公开测试版,它可以让创造者在物理精确模拟或3D渲染中进行实时协作。
如今,Omniverse平台再次升级,新发布了Omniverse Avatar和Omniverse Replicator。其中,Omniverse Avatar是一个用于生成交互式AI化身的技术平台。它集合了英伟达在语音AI、计算机视觉、自然语言理解、推荐引擎和模拟技术方面积累的技术,为创建人工智能助手打开了大门,可以帮助处理数十亿的日常客户服务互动。Omniverse Replicator则是一种合成数据生成引擎,可以基于现有数据持续生成用于训练的合成数据。
Omniverse的门户是USD(通用场景描述)黄仁勋认为Omniverse的本质是一个数字虫洞。未来任何计算机都可以连接到Omniverse,并将一个Omniverse世界连接到另一个世界,USD之于Omniverse就像HTML(一种标记语言,可以将网络上的文档格式统一)基于网站。
黄仁勋对Omniverse颇有野心。老黄表示,人们经常说“互联网改变了一切”,在万物互联的当下,互联网本质上是这个世界的数字化表达,这种数字化覆盖了所有2D层面的信息,即文本、语音、图像、视频。如今,随着技术的进一步发展,3D层面的信息也在不断涌现。
在黄仁勋的设想当中,未来会有很多的设计者、创造者在虚拟现实、Metaverse中设计数字事物,然后才在现实世界中去完成设计,包括汽车、包、鞋子等等产品。而此次发布的Omniverse平台,正是拥有着创建全新3D世界或为物理世界建模的技术。
用一句互联网黑话表示,就是所有现实世界中物理存在或不存在的东西,都值得在Omniverse上再做一遍。可这么看来,Omniverse不就和游戏引擎一样了嘛,但老黄说了Omniverse是面向数据中心的规模来设计的,在未来或可能达到全球数据规模,也就是说英伟达的预期是未来的Omniverse能真的为物理世界建模。
当然,让Omniverse中的虚拟物品与物理世界中的人进行实时交互仍存在诸多挑战。黄仁勋表示:“如何使用Omniverse模拟仓库、工厂、物理和生物系统、5G边缘、机器人、自动驾驶汽车,甚至是虚拟形象的数字孪生,是一个永恒的主题。”
接下来黄仁勋展示了Omniverse Avatar结合英伟达各项技术后生产出来的实时应用程序。首先是用于客户支持的Project Tokkio,“Tokkio”是一款智能操作台应用程序,在视频案例中“Tokkio”在一家快餐店服务,与两位顾客直接对话并帮助顾客进行了点餐服务。
基于Omniverse Avatar制作的智能操作台应用程序Tokkio
如果将Omniverse Avatar与Drive Concierge相结合,可爱的自定义行车虚拟助手便出现了。
Omniverse Avatar展示的另一个例子则是老黄自己的AI化身,英伟达的员工们早就开始用老黄的声音构建出了一个会对话的语音合成AIToy-Me——一个玩具AI老黄。不得不说,老黄确实懂得多,玩具版的AI老黄在视频案例中轻松回答了气候、天文、生物三个领域专家的专业问题。
黄仁勋表示:“你会看到这个虚拟形象是基于目前训练的最大语言模型的语言处理打造,包括声音也是用我自己的语音进行合成,还可以看到实时基于光线追踪的精美图像。”
实时对话AI机器人“Toy Jensen Omniverse Avatar”
老黄还将Omniverse Avatar与视频会议平台Maxine相结合,为虚拟协作和内容创建应用添加了音视频功能。在视频案例中,一位女士在嘈杂的咖啡厅中可以视频会议中简单的去除背景噪音后通话,同时,她的英文可以被实时转化为多种语言,并生成对应口型及语调的虚拟形象。
一个看似简单AI数字人其实并不简单,Omniverse Avatar能够如此强大的原因在于其背后英伟达近年来的技术突破,老黄直称在几年前想要实现上述案例的功能几乎不可能。如今,Omniverse Avatar的推荐引擎采用Merlin方案,该框架允许企业能够建立处理大量数据的深度学习推荐系;感知能力则来自计算机视觉框架Metropolis;头像动画由Video2Face和Audio2Face(二维和三维AI驱动的面部动画和渲染技术)驱动。
自动驾驶的老司机Omniverse Replicator
黄仁勋在演讲上发布的另一项产品Omniverse Replicator,已产生了两个用于生成合成数据的应用——NVIDIA DRIVE Sim™、NVIDIA Isaac Sim™。它们分别是用于承载自动驾驶汽车数字孪生的虚拟世界和用于可操纵机器人数字孪生的虚拟世界。
Omniverse Replicator的优势在于它能在一定程度上代替真人来进行昂贵、费力的数据标记工作,同时这些虚拟世界中产生的数据可以涵盖各类不同场景,包括在现实世界中无法经常经历的场景以及极度危险的场景。它还能生成人类难以或无法标记的真值数据,如速度、深度、被遮挡的物体、恶劣的天气条件、追踪各传感器上的物体移动等。当自动驾驶汽车和机器人在系列虚拟环境中得到充分训练后,才会逐渐应用到现实世界当中。
此外,黄仁勋还公布了Omniverse的另外四项功能。Showroom——一个包含演示和示例应用程序,展示了Omniverse核心技术;Farm——一个系统层,用于协调跨多个系统、工作站、服务器和虚拟化批作业处理,可以用于批量渲染,AI合成数据生成或分布式计算;Omniverse AR——可以将将图形串流到手机或者AR眼镜;Omniverse VR——首款全帧交互式光线追踪VR。
英伟达对Omniverse的期待远不止于此,英伟达还将利用Omniverse来构建一个数字孪生模型来模拟和预测气候变化。黄仁勋表示:“预测气候变化,以制定减缓和适应策略,可以说是当今社会面临的最大挑战之一。”
英伟达的上一台超级计算机是Cambridge-1,而如今用来模拟和预测气候变化的这台新的超级计算机将叫做E-2(Earth Two),寓意为地球的数字孪生,它能够在Omniverse中以数百万倍的速度运行Modulus创建的AI物理模型。
NVIDIA Cambrigde-1 中的GPU
在主题演讲最后,黄仁勋表示人类需要在为时已晚之前采取行动缓解和适应当今越来越频繁的极端天气,而“我们目前发明的所有技术,均是实现Earth Two所必不可少的,我想不出比这更宏伟、更重要的用途。”