曹荣昀:大模型带来革命性变革,让机器人更具“生命力”
文—本刊记者 董铁莹
曹荣昀(右一)与团队在世界制造业大会现场DeepSeek的爆火带来现象级讨论,也让大模型创业青年备受关注,机器人、视觉识别、语音识别……人工智能领域涌现出一大批优秀的创业青年。
1995年出生的曹荣昀毕业于中国科学技术大学少年班学院,目前是无论科技创始人、模态人形机器人项目研发负责人,专注于交互型机器人软硬件解决方案创新,致力于以具身智能技术打造具备“生命力”的多模态情感交互机器人。
无论科技于2023年12月创立,专注于交互型机器人软硬件解决方案创新,致力于以具身智能技术打造具备“生命力”的多模态情感交互机器人。技术创新方面涵盖多模态人形机器人表情头模组、仿生动物机器人、陪伴机器人、人机交互模块赋能、新一代人机共融机器人开放平台。
公司的核心技术团队由中国科大计算机学院机器人实验室、信息学院的硕博研究生组成,系国际服务机器人两大主流认知智能技术之首的“可佳”与特有体验交互机器人“佳佳”项目组的核心成员,曾获国际机器人赛事RoboCup机器人世界杯亚军、ACM MM国际自然交互反应生成比赛冠军。研发的全球首只仿生大熊猫机器人“小川”在成都大熊猫繁育研究基地展出并广受好评。
团队目前自主研发了国际领先的人形机器人高自由度仿生面部驱动结构,拟真面部柔性材料等关键硬件模块,并在头面部及躯体行为生成、控制、规划,以及情感交互引擎中的人格定制、交互反应自主生成等软件技术层面具备优势。无论科技始终聚焦机器人交互核心技术,攻关革新人机交互方式,瞄准行业与用户需求,打造新一代人机共融的机器人平台,构建人机之桥,让机器人走向千行百业,走进千家万户。
接受《中国青年》记者专访,这位曾经的“天才少年”,如今的人工智能优秀创业者畅所欲言,与青年读者共同分享创业点滴,并鼓励更多青年与自己一起,在高质量发展的创业大潮中找到自己的人生价值。
人生能有几回搏,让交互方式发生变革
《中国青年》:请与青年读者分享你的创业故事,为什么选择交互型机器人领域?在创业过程中遇到过哪些困难?又有哪些成长、收获?
曹荣昀:其实选择创业和选择做医生、做老师一样,都是选择了一段生命的活法。我在本科上物理课时,第一次深刻意识到在宇宙尺度下人类个体的渺小,往后细想,每个人只有一次来到世界上的机会,在宇宙的时间线里只是短短一瞬间。我认为大部分人都会希望自己的生命有更大的价值,如果能影响的人更多一点,影响人类世界更久一点,就挺好。
创业其实就是找到一群志同道合的人,实现共同的价值。一群人的力量显然要比一个人更大,我们每个创业者的初衷,都是希望能做成一件有意义的事情,并且让世界因此变得更好一点。创业就是和一群相信未来的伙伴们,突破重重困难,实现价值的过程。为此努力过,我相信每个人都无愧这有且仅有一次的人生。按照需求金字塔理论,人的最高需求是自我实现,初出茅庐就有机会追求最高的这一档需求,哪怕失败了也是挺幸运的。
其实我很早就选择了机器人这个方向,在大二选择加入实验室实习的时候,我就选择了机器人实验室。至于选择交互机器人作为创业方向,一方面是源于在实验室期间的积累,另一方面也是我们团队对于行业的判断。人形机器人之所以被寄予厚望,源于我们认为人形机器人未来会是人类历史上最重要的工具,甚至它就是生产力,每个人可能都需要一台甚至几台机器人。类似的设备在不同历史时期都出现过,比如个人电脑、手机。电脑走进千家万户这个节点不是因为电脑的性能或者功能有了极大的跨越,而是因为图形界面被发明了,普通人不需要经过专业培训也可以使用电脑,PC才渐渐演变出了雏形。手机也是相似的,移动互联网时代的到来,和iPhone这种触摸式的交互方式密不可分,这种交互方式的诞生,也催生了移动互联网时代的各式各样的信息和内容。所以,我们认为在人形机器人领域也是类似的,人形机器人的大规模普及,因素可能会有很多,但是交互方式的变革一定是其中重要的一环。电脑的交互方式放在手机上承载不了移动互联网时代的到来,手机的交互方式放在机器人上也承载不了人机共融社会的到来。所以我们选择了这件事情。
其实我们的创业才刚刚开始,但已经能感受到各种各样的挑战。初期,在我们第一台技术样机的研发过程中,驱动结构的设计是最大的难题,有一阵子经常凌晨天亮了才回家,不仅要把一天内所有的优化思路全部测试完才舍得走,并且走之前还要安排一个制作耗时很长的零件图纸上机,人停了,但是机器不能停。
这是技术方面的问题,还有另一方面来自团队的挑战。在去年世界制造业大会上,我们希望表现出最新的技术、最好的状态。然而最新也就意味着更大的不确定性,开展前一晚我们的机器人出了问题,我们团队连夜调试,在紧锣密鼓的配合下,终于让机器人“活”了过来。其中有一幕我印象特别深刻,因为场馆内有安保措施,不方便进出,我们其中一位伙伴,也是我们现在的技术负责人,在工具包里塞了一袋从食堂买的面包,生怕出去吃晚饭耽误了调试的时间。这种信念感,是我们克服任何困难的杀手锏。
除了具象的困难,还有一个重要的抽象挑战,如何让别人相信你所相信的。创业初期,无论是融资还是建立团队,都是一种寻找信任的过程,这个过程时时刻刻都在面对各种各样的质疑和否定。面对这种精神上的巨大压力,需要拿出中国青年的精神,再大的困难也不能心甘情愿被击垮。电影《哪吒2》里面的哪吒,就代表了新时代下中国青年的形象。坚信自己所坚信的,付出全部的努力,哪怕失败了,也问心无愧。去年,习近平总书记在合肥考察调研期间指出,要拿出“人生能有几回搏”的劲头。这种精神,是我创业以来获得的最重要的成长。
《中国青年》:当前,宇树等机器人公司火热发展。而你们公司的产品将大模型应用于机器人,致力于打造具备“生命力”的多模态情感交互机器人,对此你们做了哪些努力?
曹荣昀:“机器人”这个概念承载了人们五花八门的想象,比如能进工厂、能做家务、能跑、能飞等等,各个公司研发的产品都是在将其中一部分想象变成现实。
无论科技针对的是让机器人具备“生命力”,即其外观和行为活灵活现,并且能够带给人情感触动。具体而言,我们系统性地将表现“生命力”这一目标融入产品研发的全流程,在机械结构、皮肤材料、交互方式和表情生成等多个环节都为提升“生命力”做出创新,致力于打造高价值的人机交互体验。比如在机械结构设计上,宇树机器人可能更注重其结构强度要满足承载数十千克的机器人行走跳跃的需求,而我们的机电结构更强调对结构尺寸的极度压缩,因为我们需要在非常有限的空间内尽量完整地复现真人面部42个肌肉群的运动能力。
曹荣昀在声博会现场测试机器人交互功能大模型给交互机器人带来的改变是革命性的。传统自然语言对话系统非常呆板僵硬,能理解的话题和产生的回答都仅限于预先设定的模板范围内,因而只能满足功能性的交互需求,比如开灯关灯、办理某个常见业务流程。这样的对话系统被用于各种所谓的“智能客服”后,消费者对交互效果是非常不满意的,大家都需要去“转人工”找真人客服来提供服务。而最近两年,从美国的大模型到现在国内最新的 DeepSeek,大模型在文本生成中展现的逻辑能力和趣味性都在不断提升,这给我们交互机器人的产品形态和产品功能带来了巨大的想象空间。
但是,目前大模型仅仅在理解与生成文本方面达到良好的用户体验,而对实体机器人所必需的表情行为的理解与生成能力还很匮乏。为了将大模型接入我们产品的交互流程中并实现整体体验的升华,我们需要做出两方面改造,一方面是微调大模型让它更好地理解面对面交互情景中的人物关系与表情动作,另一方面是开发了高兼容性的运动控制逻辑以便响应大模型。
我们团队从零开始,针对面对面人机交互场景构建了包含人物关系与表情动作的数据集,精心设计数据结构和训练流程,通过微调将现有大模型从一个能写代码、写文章的通用模型改造为一个专门应答面对面交互需求的模型。我们的运动控制系统的底层设计心思缜密,从一开始就考虑到不同表情与口型的控制逻辑差异,能够响应实时交互中不断变化的运动指令,给我们接入大模型的交互流程预留了充足的设计空间。这个设计空间不只是针对现在以文本生成见长的大模型,而且还提前考虑了未来可能出现的直接生成语音和动作的大模型。我们的长远目标是研发一套功能完备且性能优良的机器人情感引擎,形成开发情感人机交互产品的标准化工具与流程,避免在机器人领域出现类似国外垄断手机操作系统的情况。
我们不仅要追赶,更要定义未来
《中国青年》:作为“95后”,投身于AI时代的创业大潮,你如何理解点亮人工智能时代的“中国心”?与国际同行相比,你们公司的产品做到了哪些领先?
曹荣昀:作为“95后”,我完整经历了中国汽车产业从合资代工到新能源领跑全球、载人航天从“神五”首飞到现在空间站常态化驻留的历程。当年看着前辈们用二十年走完别人百年的路,我总遗憾自己没能参与那些激动人心的时刻——但如今,人工智能的浪潮给了我们这代人书写历史的机会,这次我们不仅要追赶,更要定义未来。
我理解的“中国心”,是用中国智慧解决中国问题的自觉。这需要两股力量的交织:技术自主性是筋骨,本土化洞察是血脉。技术自主性方面,我们强调在核心技术上摆脱依赖(如国产零部件适配、自研算法框架),体现中国企业的底层创新能力。本土化洞察方面,我们立足中国社会需求,比如老龄化催生的养老产业陪护、文旅产业升级等方面,解决社会真实的痛点而非简单对标。除此之外,由于人机交互这个方向的特殊性,我们希望将中国文化基因和以人为本的洞察融入机器人的交互逻辑,比如性格习惯和文化礼仪,让技术承载文化认同。
与国际同行相比,我们的34自由度机器人表情头,在自由度数量方面全球领先,自由度数量背后体现的是微表情表达能力,是情感交互灵魂的载体。同时,通过国产供应链整合,我们实现了核心零部件100%国产化,将成本降低40%,让机器人不再是实验室的“奢侈品”。此外,我们自研的声唇匹配技术专为中文语音优化,解决了针对汉语特征的机器人口型生成问题。
我认为,这种文化+技术的结合,正是中国AI应有的生命力。如果说ChatGPT重新定义了知识交互,我们认为中国创业者同样能重新定义情感智能。
《中国青年》:毕业于中科大少年班的你,在中科大学习期间获得了哪些成长?
曹荣昀:在中科大的学习过程,是我认识自我、塑造自我的一个最重要的阶段。从时间轴上来说,分成了三个阶段:跟老师学、跟同学学、跟校友学。
少年班学院的跨学科培养让我学会了如何快速学习一个陌生的领域,重视数理基础的理念让我养成了从更本质的层面看待问题的习惯。
之后进入实验室工作,其实就是践行科大“理实交融”的校训。在实验室的工作,不仅让我充分理解了“为什么要好好学习”这个问题,而且和实验室的同学们一起共事的美好感受也是现在我选择创业的原因之一。
开始创业以来,校友资源为我提供了极大的助力,让我们这些初出茅庐的人能遇到这么多榜样和贵人。我们从校友们身上看到了优秀的人是什么样子,并且在校友们的关心和帮助下,更加高效地成长。
《中国青年》:据你目前的实际经验和观察,你认为想要投入高质量发展,进行创业的年轻人需要具备哪些能力和素质,需要做好哪些准备?
曹荣昀:我自己也是一个还在摸索的年轻人,谈不上给同伴建议,只能说说我对自己的要求。过去两年,我总结出了两个“必须做到”:第一,技术扎根必须“深过树根”,始终抱着学习的态度,避免盲目追逐风口,不能用战术的热闹,掩盖战略上的懒惰。所谓的技术壁垒,不过是把别人懒得做的事情,做到极致。
第二,需求验证必须“沾泥带土”,创业不是写ppt,而是要把自己“种”在场景里,深入到用户中去,通过不断收集场景和用户的需求,调整对于市场的认识,检验自己的判断。
我觉得创业不是百米赛跑,而是一场马拉松,需要抱着“长期主义”的心态做好这件事情,要有为“一根眉毛”而较劲的耐心。
监制:陈章乐
终审:陈敏
审校:刘晓 刘博文
编辑:熊宇文