中意资讯网 中意资讯网

当前位置: 首页 » 前沿资讯 »

最低仅需5GB显存,最快0.5秒生成,腾讯混元开源多款3D生成模型

3 月 18 日和 19 日,腾讯混元在其开源日宣布开源 5 款全新 3D 生成模型,这些模型均基于 Hunyuan 3D 2.0 技术打造。

此次开源的多款模型涵盖了 Turbo 系列模型、多视图版本模型以及轻量级 mini 模型。截至目前,Hunyuan 3D 2.0 家族已有 6 款模型。

此外,该公司自研的 3D AI 创作引擎也同步升级。腾讯混元 3D AI 创作引擎于今年 1 月发布,本次升级后的引擎带来了四大功能,包括多视图输入、模型智能减面、基于物理的渲染(PBR,Physically Based Rendering)材质升级和多格式兼容。这些功能不仅提升了生成效率,也为 C 端创作者提供了更强大的工具。

(来源:腾讯混元)

与 1 月份开源版本相比,其参数量从 11 亿下降到 6 亿,并且具有更高的隐空间压缩率,从而能够大幅降低了 GPU 显存的占用。

腾讯混元 3D AI 创作引擎于今年 1 月发布,本次升级后的 3D AI 创作引擎带来四大功能,包括:多视图输入、模型智能减面、PBR 材质升级和多格式兼容。

在多视图输入方面,操作非常简单:上传几张标准视角的图片后,就能得到快速生成的高质量 3D 模型,这大幅降低了游戏制作、3D 用户生成内容创作等场景的制作成本。

引擎的 3D 智能减面功能能够为模型“瘦身”。它能够根据需求自动生成几百到数千个三角面,优化几何边缘的平滑度,从而在减少面片数量的同时,最大限度地保留模型的细节表现。

在质感方面表现方面,通过 PBR 提供了更加真实的颜色以及材质表达,适用于游戏开发、影视制作等高要求场景。

图丨左图:普通图片,右图:生成 PBR 模型(来源:腾讯混元)

此外,其还实现了多格式兼容,除了支持 OBJ、GLB、FBX 等多种格式输出以外,还可输出 STL、USDZ 及 MP4 等主流格式,兼容 3D 打印工具,可满足模型快速预览和移动端实时交互需求。

(来源:腾讯混元)

Flash VDM 加速技术是 Turbo 系列模型实现高性能的关键。在该技术加持下,最低只需要 5GB 的显存就可以部署 mini 等模型,可以在任何消费级显卡上进行部署,并且运行时间可以降低到 1 秒以内。

在显卡支持方面,最低支持 4050、3050、2060、1070 及以上的显卡。此外,该技术还可以在 Mac 上的 M1 等芯片上进行部署,并且支持在 MacOS、Windows 和 Linux 三大操作系统上运行,甚至还可以直接在 CPU 上进行部署。

(来源:腾讯混元)

那么,这项技术解决了什么问题呢?目前,业界常用的 3D 生成模型范式是基于 Vecset 的扩散模型(VDM,Vecset Diffusion Model)。尽管这类模型能够生成比较高的质量,但通常速度会比较慢。

一个明显的对比是:Hunyuan3D-2 生成 3A 级别的资产,需要半分钟左右;而使用 Flash VDM 技术之后,其生成一个 3D 模型的时间提速到 1 秒钟。值得关注的是,如果将其应用到更轻量的 mini 模型上,甚至可以做到 0.5 秒内生成。

图丨推理阶段时间占比(来源:腾讯混元)

人工智能生成内容(AIGC,Artificial Intelligence Generated Content)领域目前主流的方案分为两个步骤:先进行压缩,再进行从无到有的生成。

简单来理解,3D 模型生成就像搭积木,先将杂乱无章的东西压缩成积木模块(VAE 的解码过程),再将这些积木堆成一个完整的 3D 模型(DIT 的生成过程)。这两个阶段是 AIGC 的通用流程,3D 生成模型也不例外。

然而,这两个阶段都需要加速。从上图中可以看到,生成模型的推理时间占比为 23.94%,而 VAE 解码的时间占比高达 75.88% 。因此,要想将生成时间从几分钟缩短到一两秒,必须对这两个阶段同步进行加速。

腾讯混元团队在解码过程中通过智能化地大幅减少采样数量,以及减少每个采样的计算量,实现了速度的大幅度提升(与 Hunyuan3D-2 模型相比):加速版模型的迭代步数为 5 步,而未加速版为 50 步。

(来源:腾讯混元)

此外,腾讯混元团队还进行了用户调查,通过众包平台对加速版模型(Turbo 模型)和未加速模型(Hunyuan3D-2)进行了评测。结果显示,87.3% 的用户认为加速版和未加速版的效果上没有明显差异。

当加速版的迭代步数从 5 步增加到 8 步时,认为两者效果差不多的用户比例提高到 90% 左右,这说明大多数用户难以区分加速版和未加速版的生成效果。

图丨用户调查对比(来源:腾讯混元)

3D 生成模型技术近年来蓬勃发展。实际上,随着手工建模的时间已经从一周、几天缩短到几分钟甚至秒级的速度,为什么还要追求更快的速度呢?

其背后反应的是市场对生成模型高质量和高可控性的需求,更快的速度也意味着可以形成良性、迅速的反馈机制。

另一方面,尽管在文字、图像、视频领域,生成的大多是单个对象,但在 3D 领域会涉及到成千上万的 3D 资产的生成(例如城市、场景等),因此效率对更大规模的生成能力是一种强有力的技术保障。

目前,腾讯混元 3D 生成模型在多种场景应用,例如用户生成内容、商品素材合成、游戏 3D 资产生成等。

总体来说,随着腾讯混元系列模型的发布和开源,我们看到了 3D 生成技术在广泛场景中的应用潜力,无论是专业工作室还是 C 端创作者,都能根据自身硬件条件选择合适的模型进行更高效的创作。

对于目前 3D AIGC 的生成速度较慢,交互场景速度受限来说,全新的高质量、高速模型有利于推动交互式 3D 创作工具的发展,并为社区和用户提供了二次开发的基础。

尽管腾讯混元 3D 模型在实用性和灵活性方面表现出色,可满足不同场景下对 3D 模型细节的严苛要求,但也需要认识到,在创意和细节程度方面,人工建模仍然具有不可替代的优势。

正如他们在开源日直播中所表达的那样,“一花独放不是春,百花齐放春满园”,只有通过技术的不断迭代与生态的共建,才能推动 3D 生成技术的全面发展。DeepTech 将持续关注其后续更新,期待带来更多实用功能和性能优化。

参考资料:

https://mp.weixin.qq.com/s/-9pKh5yO3FVOCE_qaIDY-g

https://3d.hunyuan.tencent.com/

https://huggingface.co/spaces/tencent/Hunyuan3D-2mv

https://github.com/Tencent/Hunyuan3D-2

运营/排版:何晨龙

未经允许不得转载: 中意资讯网 » 最低仅需5GB显存,最快0.5秒生成,腾讯混元开源多款3D生成模型