GPU加速运算：Nvidia强化交谈式AI应用多模态服务框架Jarvis进入公开测试阶段

时间：2022-11-23 16:04:11 来源：

原标题：GPU加速运算：Nvidia强化交谈式AI应用多模态服务框架Jarvis进入公开测试阶段

目前交谈式AI的应用最常见于聊天机器人（Chatbot），然而，若要提升与使用者互动的体验，需要支援多种模态的整合应用，而Nvidia在这部份的技术研发，则是Jarvis这套应用程式框架，10月进入公开测试阶段。

在10月的GTC大会上，Nvidia创办人暨执行长黄仁勋介绍完一系列AI推论的应用成效，以及TensorRT这套针对Nvidia推论伺服器使用的编译器将推出7.2版的消息，在这之后，随即宣布，他们发展的对话式AI的软体应用Jarvis，进入开放公开测试的阶段。

事实上，Nvidia在今年5月的GTC Digital大会，已揭露更多Jarvis应用架构与方式，他们将其定调为多模态交谈式AI服务框架（Multimodal Conversational AI Services Framework），能让企业运用影音与语音资料，建构先进的语音交谈式AI服务，而且可针对本身的产业、产品与客户特性来进行自定。

Nvidia表示，随着在家工作、远距医疗、远距学习应用大增，企业自行开发交谈式AI服务需求量也跟着提升，应用範围相当广泛，从客户支援，到即时翻译、语音视讯通话的摘要，有了这些服务，可让身处不同地方的人们，保持工作效率与彼此联繫。

黄仁勋当时展示了两个作法，首先是将AI模型结合语音与脸部的应用，他们将一段饶舌歌曲结合一个人头塑像动画来展现，就像这个虚拟人物正在唱颂的样子。

类似的应用他们先前也曾展示，例如，在2017年的语音驱动式脸部3D动画（Audio-Driven Facial Animation），当中结合了关于动作与情感的全面机器学习技术。

2019年Nvidia AI实验室（NVAIL）也展示他们发展的语音操作型角色动画（Voice Operated Character Animation，VOCA）。

第二个应用则是气象资讯对话机器人，名为Misty。黄仁勋不只与这个机器人进行天气资讯的双向语音问答，机器人本身的动画也会跟随所回答的内容而自动变化，例如，面部表情、嘴型说话动作、眼神注视动作，以及呈现不同天气下的自身状态。

他们运用Omniverse与Jarvis建立了AI驱动的3D数位分身。这当中使用的Jarvis，包含了预先训练的交谈式AI模型，针对语音辨识（ASR）、电脑视觉（CV）、自然语言理解（NLU）、文字转语音（TTS）等多种AI服务，也涵盖了Audio2Face语音驱动式的AI技术，能够从Jarvis合成语音，快速而自动建立即时的脸部动画，而涉及即时图像渲染的部份，则交由Omniverse这套即时模拟与协作平台，来进行3D内容的生产与处理。

值得一提的是，Jarvis包含了几套先进的深度学习模型，像是Nvidia发展的Megatron BERT，可用于自然语言理解。Nvidia表示，这是世界最大型的BERT（Bidirectional Encoder Representations from Transformers）模型，可理解39亿个参数，在进行训练处理时，可支援数百个GPU的线性扩展，并可随着模型规模扩大而增加精準度。

企业若要进一步在他们的资料上，更妥善地调校AI模型，可运用Jarvis整合的另一个开放原始码软体工具包Nemo，它是用于开发交谈式AI模型的工具，当中包含了Python模组集，能简化模型组建，以及支援混合精度运算，加速训练与调校，之后也可部署至Jarvis services当中。

除此之外，Jarvis还整合了TensorRT 7.1，可支援今年新推出的A100 GPU，来运用INT8精度来加速BERT推论，获得6倍的效能提升（相较于搭配V100）。

而在10月Nvidia宣布Jarvis公开测试的消息当中，也首度提及这套解决方案的成效。他们表示，若採用Jarvis这套用来建构多模态交谈式AI服务的加速软体框架，搭配GPU且用于执行深度学习的交谈式AI应用时，延迟度将可低于300毫秒，并提供7倍的吞吐量（相较于纯粹仰赖中央处理器的作法）。

郑重声明：文章仅代表原作者观点，不代表本站立场；如有侵权、违规，可直接反馈本站，我们将会作修改或删除处理。