우리의 비전은 모든 사람이 자신의 3D 상상을 실현할 수 있도록 돕는 것입니다. 그래서 우리는 Meshy-1을 개발했습니다. 이는 빠른 3D 생성 AI로, 콘텐츠 제작자가 텍스트와 이미지를 매력적인 3D 모델로 변환할 수 있도록 하며, 단 1분 이내에 가능합니다.
이 블로그에서는 Meshy-1의 배경 이야기와 그 기능을 공개하게 되어 기쁩니다[]. 놀랄 준비를 하세요!
왜 3D를 위한 생성 AI가 중요하고 어려운가?
게임, 영화, XR 산업에서 3D 인터랙티브 콘텐츠의 급증은 3D 모델에 대한 수요를 급증시켰습니다. 전문가 제작자는 긴 제작 시간을 겪고, 일반 제작자는 Maya나 Blender와 같은 복잡한 도구에 어려움을 겪습니다. 비용과 복잡성의 장벽으로 인해 증폭된 이 격차는 해결책을 요구합니다.
지금이 결정적인 순간입니다. 애플의 Vision Pro 공개와 메타의 Quest 3 도입, 생성 AI 기술의 급속한 발전, 성장하는 게임 시장과 함께, 획기적인 3D 생성 AI에 대한 집단적 기대가 느껴지고 실현될 준비가 되어 있습니다.
이 흥미진진한 생성 AI 시대에, 다양한 모달리티에서 강력한 제품들이 등장하고 있습니다. 예를 들어, 텍스트를 위한 ChatGPT, 이미지를 위한 Midjourney, 비디오를 위한 Runway가 있습니다.
3D 생성이 다음 단계로 보일 수 있지만, 흥미롭게도 이 분야에는 확고한 리더가 없습니다. 주로 사용하기 쉬운 제품을 만드는 레시피가 아직 발견되지 않았기 때문입니다. 왜 그럴까요?
학계와 산업계에서의 나의 여정 [1]은 그 이유를 이해하는 데 도움을 줍니다.
도전 1: 품질과 속도 사이의 균형. 현재 3D 생성 AI 분야에는 두 가지 주요 접근 방식이 있습니다:
- 2D 리프팅: 2D 생성 모델(예: Stable Diffusion)을 3D로 향상시키고, NeRF와 같은 구조에 반복 최적화 기술을 적용합니다. 이러한 방법은 많은 2D 데이터를 사용하여 다양한 고품질 3D 모델을 만들 수 있지만, 속도가 느리고 RTX 3080과 같은 빠른 GPU에서도 몇 시간이 걸릴 수 있습니다.
- 3D 확산: 이 접근 방식은 모델당 생성 시간을 1분 미만으로 크게 줄입니다. 3D 훈련 데이터가 많지 않기 때문에, 이 방법으로 만들어진 모델은 종종 품질이 좋지 않습니다.
현재 방법은 너무 느리거나 원하는 품질이 부족하여 효과적인 제품 개발을 방해합니다. Meshy는 빠르고 고품질을 목표로 합니다.
이 때문에 많은 3D 생성 AI 제품이 없습니다. 3D 확산을 사용하면 품질이 낮고, 2D 리프팅은 사용자에게 긴 대기 시간을 제공하며 서버 비용이 높습니다. 우리 팀은 두 접근 방식의 장점을 결합하고 품질과 속도 사이의 균형을 극복하여 사용자가 텍스트/이미지를 1분 이내에 좋은 3D 모델로 변환할 수 있는 제품을 만들기 위해 열심히 노력했습니다.
도전 2: 학문적 혁신과 사용자 요구 사이의 격차. 사용자 중심의 제품은 단순한 알고리즘과 신경망 가중치를 넘어, Unity와 Blender와 같은 널리 사용되는 도구와의 직관적인 사용자 인터페이스와 원활한 통합을 필요로 합니다. 또한, 모바일 게임에 적합한 관리 가능한 폴리카운트를 제공하고 사용자 아이디어를 진정으로 실현할 수 있는 효과적인 콘텐츠/스타일 제어를 제공해야 합니다. 제품화는 로켓 과학이 아니지만, 깊은 제품 통찰력과 CG 산업에 대한 깊은 이해가 필요합니다. [2]
Meshy-1: 3D GenAI Made Fast and Superb
앞서 언급했듯이, 생성 과정이 몇 시간에 걸쳐 진행된다면, 수백 명의 사용자에게까지 확장할 수 있는 제품을 만드는 것은 어려워집니다. 따라서 제작자로서 속도 문제를 먼저 해결하는 것이 시급합니다.
Meshy-1을 소개합니다. 빠른 3D 생성 AI로, 콘텐츠 제작자가 텍스트와 이미지를 매력적인 3D 모델로 단 1분 이내에 변환할 수 있도록 합니다. Meshy-1은 사용하기 쉬운 세 가지 모드를 제공합니다:
- Text to 3D: 단어 입력, 3D 모델 출력
- Image to 3D: 이미지 제공, 3D 모델 생성
- Text to Texture: 간단한 텍스트 설명으로 모델의 텍스처 생성 [3]
세 가지 모드 모두 빠르게 작동하며 60초 이내에 결과를 제공합니다.
완전히 AI로 생성된 장면입니다. 이 장면의 모든 모델은 Meshy-1 Text to 3D를 사용하여 생성되었습니다.공통 Meshy-1 기반을 바탕으로, 세 가지 모드는 기존 제품에서 제공되지 않았던 공통 기능을 공유합니다:
30배 빠름. 기존 제품은 사용자가 몇 시간 동안 기다리게 할 수 있으며, 이는 용납할 수 없다고 믿습니다. Meshy-1은 이 과정을 혁신하여 1분 이내에 결과를 제공합니다[4]. 이는 사용자 경험과 생산성을 향상시킬 뿐만 아니라, Meshy-1의 놀라운 효율성 덕분에 사용자 측 생성 비용을 크게 줄일 수 있습니다.
워크플로우 친화적. 3D 모델이 다운스트림 애플리케이션에서 사용 준비가 되어 있는지 확인하는 것이 중요합니다. glb, usdz, fbx와 같은 출력 형식을 지원합니다. 다음 주에는 Unity 플러그인을 출시할 예정이며, 이후 Blender 및 UE 플러그인을 출시할 예정입니다. 또한 웹 앱에서 폴리카운트 제어 옵션을 추가할 계획입니다.
고품질 텍스처. Meshy-1은 텍스처 품질에서 획기적인 성과를 제공합니다.
- 4K 해상도. 해상도는 중요하며, Meshy-1 텍스처는 매우 선명합니다.
- PBR 채널. 물리 기반 렌더링(PBR)은 게임과 영화에서 매우 중요하며, Meshy-1은 물리적 현실성을 위해 금속성, 거칠기, 노멀 맵을 출력합니다.
- Text to Texture의 다중 재질 지원. 기존 3D 모델에 텍스처를 생성할 때, 모델에 여러 세트의 UV와 여러 그룹의 텍스처 맵이 있는 경우가 많습니다. 우리의 텍스트-텍스처 모드는 이러한 경우를 잘 지원합니다.
스타일 제어. Meshy-1의 Text to 3D 및 Text to Texture 모드에서는 현실적, 만화, 애니메이션, 만화책 등 다양한 예술 스타일을 선택할 수 있습니다. 이는 단순한 텍스트 프롬프트만으로는 제공할 수 없는 예술 스타일에 대한 상당한 제어를 제공합니다.
어떻게 사용하나요?
Meshy-1은 웹 앱과 Discord에서 쉽게 접근할 수 있습니다. 플랫폼 간 유사한 기능을 제공하면서도, 주목할 만한 차별화된 기능이 있습니다:
- Discord는 무제한 무료 생성을 제공하지만, 생성물은 생성 채널에서 공개적으로 보입니다.
- 웹 앱은 하루에 20개의 무료 생성을 제공하며, 작업 대기열, PBR 채널, 스타일 제어, 링크 공유, 생성 작업 공간 관리와 같은 추가 기능을 제공합니다.
최신 Text to Texture 및 Image to 3D 기능은 Discord와 웹 앱 모두에서 쉽게 사용할 수 있습니다. 업데이트된 Text to 3D는 오늘 Discord에서 사용할 수 있으며, 웹 앱에서는 몇 주 후에 제공될 예정입니다. 그렇다면 이러한 기능을 실제 세계에서 어떻게 사용할 수 있을까요? 초기 사용자들을 통해 우리는 효과적인 3D 생성 패턴을 발견했습니다: 소품(환경 예술)에는 Text to 3D를, 캐릭터에는 Image to 3D를 사용하세요.
소품을 위한 Text to 3D. 간단히 텍스트 프롬프트를 입력하면 Meshy-1이 설명에 따라 모델을 생성합니다. 이는 게임에서 환경 자산 또는 "소품"을 생성하는 데 이상적입니다. 스타일 옵션을 사용하여 일관된 스타일을 유지하세요.
뉴욕에 기반을 둔 시니어 UE 아티스트 RenderMan이 만든 장면으로, 모든 것이 Meshy-1 Text to 3D를 사용하여 생성되었습니다.캐릭터를 위한 Image to 3D. Midjourney나 Stable Diffusion에서 가져온 전면 이미지를 활용하면 Meshy-1이 이를 3D 모델로 변환합니다. Image to 3D 기능은 강력한 출력 제어를 보장하며, 2D 입력의 진정한 3D 표현을 만들어 초기 사용자들 사이에서 캐릭터 생성에 인기를 끌고 있습니다.
도쿄의 CG 아티스트 Samuel이 만든 장면으로, Meshy 초기 사용자입니다. 모든 캐릭터는 Meshy-1 Image to 3D를 사용하여 생성되었으며, 이후 Mixamo를 사용하여 애니메이션화되었습니다.적합한 이미지를 선택하는 방법은? 캐릭터의 정면에서 카메라가 직접 위치한 전면 뷰와 깨끗한 배경을 선호하세요.
Text to Texture를 사용하여 모델의 텍스처를 다시 입히세요. 검증된 Text to Texture 모드를 사용하여 특히 AI로 생성된 기존 모델의 텍스처를 쉽게 생성하거나 교체할 수 있습니다.
지평선 너머
우리의 목표는 Meshy를 3D GenAI의 최고의 플랫폼으로 자리매김하는 것입니다. Meshy-1은 큰 도약을 의미하지만, 결코 마지막 장은 아닙니다. 사실, 3D를 위한 GenAI의 기술 발전은 텍스트나 이미지를 위한 GenAI보다 뒤처져 있습니다. 이는 3D가 더 많은 차원과 복잡성을 도입하기 때문입니다. 따라서 3D GenAI 제품이 진정한 생산 품질을 충족하는 데 시간이 걸립니다.
Meshy-1 출력 최적화 외에도, 우리는 사용자 피드백과 학습을 바탕으로 제품 로드맵을 위한 다음 경로를 탐색하고 있습니다.
향상된 메쉬 품질. 높은 폴리카운트(보통 100K 이상), 낮은 UV 언래핑 품질, 쿼드 페이스 부족과 같은 생성 AI의 현재 한계는 생산 준비가 된 자산을 생성하는 데 그 능력을 제한했습니다. 이러한 제약을 해결하는 것은 특히 애니메이션에서 쿼드 페이스를 선호하고 모바일 게임을 위한 낮은 폴리카운트 모델을 고려할 때 중요합니다.
대화형 반복. 사용자가 Maya 및 3Ds Max와 같은 전통적인 3D 모델링 소프트웨어에서 멀어짐에 따라, AI 생성 출력에 대한 제어를 더욱 원합니다. ChatGPT 스타일의 다중 라운드 상호작용을 연상시키는 반복적 세부 조정 기능을 사용자에게 제공하는 것이 유용합니다.
향상된 제어. 예를 들어, 사용자는 전면, 측면, 후면 뷰와 같은 여러 2D 관점에서 생성하여 3D 모델을 만들고자 합니다. 이미지에서 3D로의 경우, 우리는 다중 뷰 생성이 중요한 방향이라고 믿습니다.
스타일 일관성이 있는 출력. 스타일 렌더링의 일관성은 반복적인 사용자 요구이며, 모델이 지정된 시각적 테마를 준수할 필요성을 강조합니다. 마침내, Meshy AI 팀 전체에게 진심 어린 감사와 찬사를 보냅니다. 우리의 현재 성공은 모든 사람의 변함없는 헌신과 노력의 증거입니다. 미래를 바라보며, 우리는 유망한 지평선을 보고 있으며, 함께 혁신하고 뛰어난 성과를 계속 이룰 것이라는 데 의심의 여지가 없습니다. 우리는 더욱 놀라운 것을 공개할 준비를 하고 있으니 계속 참여해 주세요!
[1]Meshy 여정을 시작하기 전에, 저는 MIT에서 CG & AI 분야의 박사 학위를 마쳤으며, SIGGRAPH와 ICLR 같은 저명한 학회에서 발표된 연구에 기여했습니다. 박사 과정을 3.5년 만에 마친 후, 그 후 2.5년 동안 스타트업 창업자로서 학문적 지식을 실제 제품 개발의 실용적인 측면과 연결할 수 있었으며, 이 역동적인 분야에서 계속 배우고 성장하고 있습니다.
[2]왜 우리인가요? Meshy 팀은 MIT, Harvard, NVIDIA, Microsoft, Google, Meta와 같은 저명한 기관과 회사 출신의 전문가들로 구성되어 있으며, 컴퓨터 그래픽스, AI, GPU, 미분 프로그래밍, 클라우드 컴퓨팅에 대한 깊은 지식을 보유하고 있습니다. 우리는 이전에 사용자 중심의 제품을 개발하여 사용자 기반으로부터 긍정적인 반응을 얻었습니다. 이러한 경험은 3D 생성 AI 제품을 제작하는 데 견고한 기반을 제공합니다.
[3]우리는 2023년 3월에 Meshy Texturer라는 도구를 출시했지만, 이제 Meshy-1이 업그레이드된 Text to Texture와 함께 등장했습니다. Meshy Texturer를 우리의 Text to 3D 및 Image to 3D 모드와 결합하여 AI가 생성한 출력물의 텍스처를 미세 조정할 수 있습니다.
[4]실험실 환경에서 도출된 데이터입니다. 서버 부하가 높은 기간 동안 대기 시간이 1분을 초과할 수 있습니다.