我们的愿景是让每个人都能实现他们的3D想象。这就是为什么我们开发了Meshy-1,一个快速的3D生成AI,赋予内容创作者将文本和图像在不到一分钟内转化为引人入胜的3D模型的能力。
在这篇博客中,我们很高兴揭开Meshy-1背后的故事及其功能[]。准备好被惊艳吧!
为什么3D生成AI重要(而且困难)?
3D互动内容的激增,特别是在游戏、电影和XR行业,推动了对3D模型的需求。专业创作者面临冗长的制作时间,而普通创作者则在使用Maya或Blender等复杂工具时感到困难。这种差距,由成本和复杂性的障碍放大,呼唤一种解决方案。
现在是关键时刻。随着苹果Vision Pro的发布和Meta推出Quest 3,再加上生成AI技术的快速进步和蓬勃发展的游戏市场,对突破性3D生成AI的集体期待显而易见,且时机成熟。
在这个激动人心的生成AI时代,各种强大的产品在不同模式中涌现。例如,我们看到用于文本的ChatGPT,用于图像的Midjourney,以及用于视频的Runway。
虽然3D生成似乎是合乎逻辑的下一步,但有趣的是,这个领域还没有明确的领导者,主要是因为尚未发现制作易于使用产品的秘诀。为什么会这样?
我在学术界和工业界的旅程[1]为理解这一现象提供了视角。
挑战1:质量与速度之间的权衡。 目前,在3D生成AI领域有两种主要的方法:
- 2D提升: 将2D生成模型(如Stable Diffusion)提升到3D,使用应用于NeRFs等结构的迭代优化技术。这些方法使用大量2D数据,可以制作出各种高质量的3D模型,但速度慢,即使在像RTX 3080这样的快速GPU上也需要几个小时。
- 3D扩散: 这种方法显著缩短了每个模型的生成时间到不到1分钟。由于可用的3D训练数据不多,以这种方式制作的模型通常缺乏良好的质量。
当前的方法要么太慢,要么缺乏理想的质量,阻碍了有效产品的开发。Meshy旨在既快速又高质量。
这就是为什么市面上没有很多3D生成AI产品。使用3D扩散导致质量低,而2D提升则导致用户等待时间长和高服务器成本。我们的团队努力结合这两种方法的优势,打破质量与速度之间的权衡,创造出一个让用户能在不到一分钟内将文本/图像转化为优质3D模型的产品。
挑战2:学术创新与用户需求之间的鸿沟。 一个以用户为中心的产品不仅仅是算法和神经网络的权重;它需要直观的用户界面和与Unity和Blender等流行工具的无缝集成。此外,它必须提供适合移动游戏的可管理多边形数量,并提供有效的内容/风格控制,以真实地实现用户的想法。虽然产品化不是火箭科学,但它确实需要深刻的产品洞察力和对CG行业的深刻理解才能开发。[2]
Meshy-1: 3D GenAI 快速且卓越
如前所述,如果生成过程需要几个小时,那么要创建一个可以扩展到数百用户的产品就变得具有挑战性。因此,作为制造者,首先解决速度问题是当务之急。
介绍 Meshy-1,一种快速的 3D 生成 AI,赋能内容创作者在不到一分钟的时间内将文本和图像转化为引人入胜的3D模型。Meshy-1 提供三种易于使用的模式:
- 文本到 3D: 输入文字,输出 3D 模型
- 图像到 3D: 提供图片,生成 3D 模型
- 文本到纹理: 使用简单的文本描述为模型添加纹理[3]
所有三种模式都快速工作,并在 60 秒内为您提供结果。
一个完全由 AI 生成的场景。此场景中的每个模型都是使用 Meshy-1 文本到 3D 生成的。基于一个通用的 Meshy-1 基础,这三种模式共享以前现有产品中不可用的共同特性:
快 30 倍。 现有产品可能让用户等待数小时,我们认为这是不可接受的。Meshy-1 通过在一分钟内提供结果彻底改变了这一过程[4]。这不仅提升了用户体验和生产力,Meshy-1 的卓越效率还使我们能够显著降低用户端的每次生成成本。
工作流友好。 确保 3D 模型可以在下游应用中准备好使用是至关重要的。我们支持输出格式如 glb、usdz 和 fbx。我们将在下周推出一个 Unity 插件,稍后将推出 Blender 和 UE 插件。我们还计划添加一个多边形计数控制选项,允许您在网络应用中减少多边形计数。
高质量纹理。 Meshy-1 在纹理质量上实现了突破。
- 4K 分辨率。 分辨率很重要,Meshy-1 的纹理非常清晰。
- PBR 通道。 基于物理渲染(PBR)在游戏和电影中变得至关重要,Meshy-1 输出金属、粗糙度和法线贴图以实现物理真实感。
- 文本到纹理的多材质支持。 当您为现有 3D 模型生成纹理时,通常情况下您的模型有多个 UV 集和多个纹理贴图组。我们的文本到纹理模式很好地支持这种情况。
风格控制。 在 Meshy-1 的文本到 3D 和文本到纹理模式中,您可以从多种艺术风格中选择进行生成,包括真实、卡通、动漫、漫画等。这为您提供了对艺术风格的实质性控制,超出了单纯文本提示可能允许的范围。
如何使用?
Meshy-1 可以在我们的网络应用和 Discord 上轻松访问。虽然在各个平台上提供类似功能,但有一些不同的特性需要注意:
- Discord 提供无限制的免费生成,但您的创作在生成频道上是公开可见的。
- 网络应用 每天提供 20 次免费生成,并增加了任务排队、PBR 通道、风格控制、链接共享和生成工作区管理等附加功能。
最新的文本到纹理和图像到 3D 功能可以在 Discord 和网络应用上使用。您可以在今天的 Discord 上找到更新的文本到 3D,它将在几周后在网络应用上可用。 那么如何在现实世界中使用这些功能呢?通过早期采用者,我们发现了有效的3D生成模式:使用文本到3D生成道具(环境艺术),使用图像到3D生成角色。
文本到3D生成道具。 只需输入一个文本提示,让Meshy-1根据您的描述创建模型,非常适合生成游戏中的环境资产或“道具”。使用我们的风格选项确保风格一致。
由纽约的高级UE艺术家RenderMan创建的场景,所有内容均使用Meshy-1文本到3D生成。图像到3D生成角色。 使用正面视图图像,包括来自Midjourney或Stable Diffusion的图像,Meshy-1将其提升为3D模型。图像到3D功能确保强大的输出控制,创造出您2D输入的真实3D表示,这使其成为早期用户在角色创建中的最爱。
由东京的CG艺术家Samuel创建的场景,Meshy早期采用者。所有角色均使用Meshy-1图像到3D生成,然后使用Mixamo进行动画制作。如何选择合适的图像?优选正面视图(相机直接位于角色前方)和干净的背景。
使用文本到纹理重新纹理化模型。 使用我们经过实战考验的文本到纹理模式,您可以轻松创建或替换现有模型的纹理,尤其是那些由AI生成的模型。
超越地平线
我们的目标是将Meshy建立为3D生成AI的首选平台。虽然Meshy-1标志着向前迈出了一大步,但这绝不是最后一章。事实上,3D生成AI的技术进步落后于文本或图像生成AI。这是因为3D引入了更多的维度和复杂性。因此,3D生成AI产品需要时间才能真正达到生产质量。
除了优化Meshy-1的输出,我们还在探索以下产品路线图的方向,这些方向由我们的用户反馈和学习指导:
改进的网格质量。 生成AI的当前限制,如高多边形计数(通常超过100K)、UV展开质量差以及缺乏四边形面,限制了其生成生产就绪资产的能力。解决这些限制至关重要,尤其是考虑到行业对动画中四边形面和移动游戏中低多边形模型的偏好。
对话式迭代。 随着用户逐渐远离传统的3D建模软件如Maya和3Ds Max,他们希望对AI生成的输出有更多的控制。赋予用户迭代优化能力是有帮助的,类似于ChatGPT风格的多轮交互。
增强的控制。 例如,用户希望通过从多个2D视角(如正面、侧面和背面视图)生成3D模型。对于图像到3D,我们认为多视图生成是一个重要的方向。
具有风格一致性的输出。 风格渲染的一致性是用户反复提出的需求,强调了模型需要遵循指定视觉主题的必要性。 最后,向整个 Meshy AI 团队致以诚挚的感谢和赞赏。我们当前的成功证明了每个人坚定不移的承诺和努力。展望未来,前景一片光明,我毫不怀疑我们将继续共同创新和卓越。保持参与,因为我们即将揭开更为非凡的事物!
[1]在踏上 Meshy 旅程之前,我在 MIT 完成了我的 CG 和 AI 博士学位,参与了在 SIGGRAPH 和 ICLR 等知名会议上发表的研究。在 3.5 年完成博士研究后,我在接下来的 2.5 年里担任初创公司创始人,这让我能够将学术知识与构建现实世界产品的实际方面相结合,同时在这个充满活力的领域中继续学习和成长。
[2]为什么选择我们?Meshy 团队由来自 MIT、哈佛、NVIDIA、微软、谷歌和 Meta 等知名机构和公司的专家组成,拥有计算机图形学、AI、GPU、可微编程和云计算方面的深厚知识。我们之前构建的以开发者和用户为中心的产品受到了用户群体的欢迎。这些经验为打造 3D 生成 AI 产品提供了坚实的基础。
[3]我们在 2023 年 3 月推出了一款名为 Meshy Texturer 的工具,但现在 Meshy-1 带来了升级版的 Text to Texture。您可以将 Meshy Texturer 与我们的 Text to 3D 和 Image to 3D 模式配对,允许您微调 AI 生成输出的纹理。
[4]数据来源于实验室环境。在服务器负载高的时期,等待时间可能超过一分钟。