动态焦点:中科深智：虚拟人，下一代操作系统的入口？

来源：刺猬公社发布时间：2023-04-14 07:49:41

(资料图片仅供参考)

驱动虚拟人的核心能力是什么？

在很多人的眼中，是A soul背后的中之人，那是动捕技术的集大成者，只需要通过穿戴设备、摄像头，人类便能操纵虚拟人模型自由活动起来；另一种方式则要复杂得多，即类似做3D动画的手段，用丰富的动作表情库加持虚拟人的驱动，事实上是一种“剪辑”行为。

尽管目前两种驱动技术已经广泛运用于虚拟人领域中，但在中科深智创始人兼CEO成维忠的眼里，它们并不是虚拟人领域的原生技术，“这两种技术只是阶段性的产物，是万不得已才会用的。”

换句话说，从更深层次的角度出发，这两种技术并不能赋予虚拟人“灵魂”，既达不到高效的驱动，高昂的成本也会让虚拟人的应用场景更加受限。在成维忠和中科深智看来，真正能赋予虚拟人“灵魂”的，正是目前火热的生成式AI技术。

这并不是对当下潮流的一次跟风。中科深智成立于2016年4月，彼时XR概念兴起，对于下一代互联网的构想也在业内迎来讨论，尽管还没有元宇宙等概念，但3D的、沉浸式的网络体验开始被广泛提及，VR等设备的出现及爆火就是最好的例证。也正是从那时开始，初音未来、洛天依等虚拟偶像开始进入公众视野，“虚拟人”行业初现萌芽。

在经历过移动电商、数字营销等新行业的连续创业之后，成维忠将目光瞄准了这一领域，参与进未来网络世界的构建令人兴奋，此前在游戏行业的经历也为他提供了经验，于是，中科深智诞生了。在早期构想里，成维忠和团队希望，借助软件和算法，助力3D内容的生产与创作，而虚拟人的动作表情驱动则是其中的重点，并逐渐成为了中科深智最核心的技术点。

时隔七年，中科深智已经成长为国内头部的虚拟人公司，在虚拟人驱动领域拥有着相对成熟的技术，并且在B端的商业化也取得了不错的进展，也是资本市场最为关注的虚拟人公司之一。而真正引起刺猬公社注意的是，中科深智早从创业之初开始就将AI技术作为虚拟人驱动的最佳解决方案，正如前文提到的，成维忠认为，AI才是驱动虚拟人的原生技术。

在大语言模型与AIGC创业成为热潮的今天，中科深智已经做了好几年的“AIGC”。从某种角度来讲，这其实是一家AI领域的创业公司，并且已经在技术和商业上卓有成效。

一个初春午后，刺猬公社（ID：ciweigongshe）来到了丰台科技园总部基地，不同于互联网公司产业园的摩登气息，这里更加静谧严肃，园区内的大多数公司也都是技术公司，通信、建筑、电子，硬核气息扑面而来，中科深智的总部就设置在这里。

最近，成维忠在社交媒体上很活跃，同时频繁地出现在国内各大AI相关的论坛中，对于CHATGPT及大语言模型等话题，他有着许多新颖的观点，这一次的拜访，也是希望能跟他聊一聊虚拟人领域的AIGC发展。

“从本质上来讲，我们是做生成式AI的。”成维忠介绍，正如ChatGPT等产品背后的大语言模型一样，中科深智的核心技术同样是以大模型为基底的，但不同的是，他们依赖的是多模态大模型，即自然语言、3D动作表情等多个模块组成的大模型产物。

“我们自研发了CLAP模型，也是一个预训练模型。”如果说风靡全球的clip模型解决的是从语言到图像的问题，那么中科深智的CLAP大模型则是在3D动作上进发，简单来讲，用自然语言输入指令，虚拟人就能在多模态大模型的作用下生成连贯的动作与表情，这看似是一种AI生成动画的方式，但底层逻辑和技术难度要更复杂。

据成维忠介绍，在目前许多AI生成动画的产品研发上，其实是“帧视频”或者“帧动画”，即用大模型生成不同的视觉图像或者内容，再通过AI技术进行组合，“本质上是个2D技术”。这与虚拟人驱动中的动作表情库路径大致类似，即对已有的动作表情数据进行剪辑组合，并非真正依靠语言、文本输入，只不过“剪辑师”和“原画师”变成了AI。

中科深智想要走的，是3D路径，即依靠自然语言输入实时生成动作表情，再依靠渲染引擎实现精美的视觉表现。简单来讲，在clap模型的驱动下，一个虚拟人形象是真正拥有“骨骼”和“面部神经”的，并且它们是真正能动起来的，这依赖于大量的数据学习，身体关节、运动轨迹、面部表情，甚至眼神，都是大模型需要去学习的数据。

通过模型，AI教会虚拟人如何“动作”，再通过自然语言输入指令，实现实时驱动，再通过3D渲染引擎，进行图像输出，这就是中科深智做虚拟人的核心逻辑。

“就像文本和图像生成一样，我们的内容输出同样学习大量的子集数据，并且通过合理的顺序进行生产，但不同的是，我们还需要一个时间轴，在3D虚拟人动作生成上，时间必须要卡的精准，不能出现错误。”这也是技术难点之一，围绕这些问题，中科深智进行了大量的技术研究，最终研发出了自己的多模态虚拟人驱动业务中台Motionverse。

“我们的参数量是10个亿左右。”成维忠告诉刺猬公社，尽管跟GPT系列的大语言模型还差很多个数量级，但在虚拟人驱动以及3D内容生成领域，中科深智已经是相对领先，但数据的需求量还在不断增加，数据量、算力资源始终是目前AIGC公司最需要的，伴随参数量、数据量的扩大，也能生成更优质的动作表情。

“现如今我们已经能实现不错的单人交互了，效果已经很好了。双人交互今年年底也会有突破，但仍需要时间。”在成维忠看来，伴随ChatGPT等大语言模型的成熟，虚拟人驱动技术也将迎来更快的发展。

从市场端来看，这种变化已经在实时发生，相比往年的高昂价格，在AI技术、视觉技术的加持下，虚拟人的成本已经大大降低，“今年，单个虚拟人制作的市场价格应该是在5万，不会超过5万，到今年明年也许是1万，也许会更便宜。”

伴随成本的下降，越来越多的公司开始使用虚拟人，在技术的加持下，虚拟主播、虚拟客服越发常见，中科深智也连续几年实现千万量级的营收。

但这一过程是艰难且漫长的，2016年早早入局，但中科深智一直专注在底层技术研发，没有做太多商业化尝试，早期研发费用一直是自掏腰包。直到2019年，第一款成熟的虚拟人驱动产品问世，中科深智的商业化进程开始，在虚拟直播、电商领域的B端攻城略地，2020年，公司也迎来了第一笔融资。

现如今在电商虚拟直播领域，中科深智已经达到了70%的市场份额，并于近期升级了虚拟人直播工具百宝箱“自动播”，将为电商平台提供虚拟人主播、虚拟人客服、虚拟直播间等技术支持。这也与成维忠的下一个构想息息相关，他认为，虚拟人不仅仅只是数字产品，更代表着下一代人机交互的新模式。

“我们最近在研究一个领域，即NUI，自然用户界面，我认为未来的使用场景也非常大。”伴随大语言模型及跨模态大模型等AI技术的成熟，与AI的多轮对话和实时交互不再是幻想，ChatGPT等产品展现出的强大理解能力与思维能力更让AI拥有了与人类平等交流的机会。

那么在语言模型与3D视觉技术成熟的今天，我们能否让AI以虚拟人的形象与我们展开对话，甚至服务呢？

成维忠的答案是可以。

NUI即是人机交互的新表现形式，设想一下，在以后的线上体验中，虚拟人代替功能菜单，你只需要一句指令就能调动相对应的功能，如同《钢铁侠》中的贾维斯一样，人机交互的效率、体验都将大大提升。中科深智目前在做的就是类似的事情，无论是电商领域的虚拟直播间还是虚拟人主播、客服，都是在进行NUI的初步尝试，让虚拟人取代传统的GUI（图像用户界面），或许只是时间问题。

成维忠告诉我们，大模型的变革或许代表着新时代操作系统的出现，“操作系统里面最核心的是两点，一点它有一个人机交互界面，另外一点有一个资源和应用的管理系统。”大语言模型就是在人机交互及数据资源调配上的一次重大进步，在微软、谷歌、OpenAI等巨头的努力之下，操作系统正在构建，而中科深智或许能够凭借自己的多模态驱动技术让NUI成为现实。

不过这都是后话了。对于中科深智来说，更吸引他们的是NUI未来的商业化场景，现如今虚拟人能够应用于娱乐、带货等场景，在未来NUI成熟的情况下，服务类的场景或许都能迎来虚拟人的进入，而在游戏、教育等领域，虚拟人或许也会实现突破。

但制约着这些设想的仍旧是技术。“目前的痛点仍旧是技术，很多东西还没法做到，但一旦实现突破，产业或许将迎来大爆发。”市场需求与技术之间是相辅相成的，需求或许已经存在了，仍需要不断地研发去填补供给端的不足。

在对谈的最后，我们来到了中科深智的演示大厅，这里位于地下一层，空间里放置着几块大屏幕，屏幕中是几个虚拟人，现实与虚拟一线之隔。我们跟一个虚拟人展开对话，在语言指令下，她能够实时跟你对谈、聊天，为你跳舞、讲笑话，尽管动作目前还无法和真人一样，但“人工智能”的样子已深入人心。未来，作为下一代互联网的NUI，或许将无处不在。

关键词：