私たちのビジョンは、すべての人が3Dの想像力を具現化できるようにすることです。そのために、Meshy-1を開発しました。これは3Dのための高速生成AIで、コンテンツクリエイターがテキストや画像を魅力的な3Dモデルに変換することを可能にし、わずか1分以内で完了します。
このブログでは、Meshy-1の背後にあるストーリーとその能力を紹介します。驚く準備をしてください!
なぜ3Dのための生成AIが重要(そして難しい)のか?
ゲーム、映画、XR産業における3Dインタラクティブコンテンツの急増により、3Dモデルの需要が急増しています。専門のクリエイターは長い制作時間に直面し、カジュアルなクリエイターはMayaやBlenderのような複雑なツールに苦労しています。このギャップは、コストと複雑さの障壁によって拡大されており、解決策が求められています。
今が重要な瞬間です。AppleのVision Proの発表とMetaのQuest 3の導入、生成AI技術の急速な進展、そして成長するゲーム市場と相まって、画期的な3D生成AIへの期待が高まっており、その実現が待たれています。
このエキサイティングな生成AIの時代には、さまざまなモダリティで強力な製品が登場しています。例えば、テキスト用のChatGPT、画像用のMidjourney、ビデオ用のRunwayなどがあります。
3D生成が次のステップであると考えるのは論理的に思えるかもしれませんが、興味深いことに、この分野には決定的なリーダーが存在しません。主に、使いやすい製品を作るためのレシピがまだ発見されていないからです。なぜそうなのでしょうか?
私の学術界と産業界での経験[1]は、この理由を理解するための視点を提供します。
課題1: 品質と速度のトレードオフ。 現在、3D生成AIの領域には2つの主要なアプローチがあります:
- 2Dリフティング: 2D生成モデル(Stable Diffusionなど)を3Dに引き上げ、NeRFのような構造に適用される反復最適化技術を利用します。これらの方法は多くの2Dデータを使用し、さまざまな高品質の3Dモデルを作成できますが、遅く、RTX 3080のような高速GPUでも数時間かかることがあります。
- 3Dディフュージョン: このアプローチは、モデルごとの生成時間を1分未満に大幅に短縮します。しかし、利用可能な3Dトレーニングデータが少ないため、この方法で作成されたモデルはしばしば品質が低いです。
現在の方法は遅すぎるか、望ましい品質を欠いており、効果的な製品の開発を妨げています。Meshyは高速かつ高品質を目指しています。
そのため、多くの3D生成AI製品が存在しないのです。3Dディフュージョンを使用すると低品質になり、2Dリフティングではユーザーの待ち時間が長くなり、サーバーコストが高くなります。私たちのチームは、品質と速度のトレードオフを克服し、2つのアプローチの利点を組み合わせて、ユーザーがテキスト/画像を1分以内に良質な3Dモデルに変換できる製品を作り上げました。
課題2: 学術的革新とユーザーニーズの間のギャップ。 ユーザー中心の製品は、単なるアルゴリズムやニューラルネットワークの重みを超えたものであり、直感的なユーザーインターフェースとUnityやBlenderのような一般的なツールとのシームレスな統合が必要です。さらに、モバイルゲームに適した管理可能なポリカウントを提供し、ユーザーのアイデアを本物の形で具現化するための効果的なコンテンツ/スタイルコントロールを提供しなければなりません。製品化はロケット科学ではありませんが、深い製品洞察とCG業界に対する深い理解が必要です。[2]
Meshy-1: 速くて素晴らしい3D GenAI
前述の通り、生成プロセスが数時間に及ぶ場合、数百人のユーザーにスケールする製品を作成することは困難になります。したがって、メーカーとしては、まず速度の問題を解決することが急務です。
Meshy-1を紹介します。これは、コンテンツクリエイターがテキストや画像を魅力的な3Dモデルに変換するための高速な生成AIで、わずか1分以内で完了します。Meshy-1には、使いやすい3つのモードがあります:
- Text to 3D: 言葉を入力して、3Dモデルを出力
- Image to 3D: 画像を提供して、3Dモデルを生成
- Text to Texture: 簡単なテキスト説明でモデルにテクスチャを付与 [3]
これらの3つのモードはすべて高速で、60秒以内に結果を提供します。
完全にAI生成されたシーン。このシーンのすべてのモデルは、Meshy-1のText to 3Dを使用して生成されています。共通のMeshy-1基盤に基づいて構築されたこれらの3つのモードは、既存の製品にはなかった共通の特徴を共有しています:
30倍速い。 既存の製品はユーザーを数時間待たせることがあり、それは受け入れられないと考えています。Meshy-1はこのプロセスを革命的に変え、1分以内に結果を提供します[4]。これにより、ユーザーエクスペリエンスと生産性が向上するだけでなく、Meshy-1の驚異的な効率により、生成ごとのユーザー側のコストを大幅に削減することができます。
ワークフローに優しい。 3Dモデルが下流のアプリケーションで使用できるようにすることは重要です。glb、usdz、fbxなどの出力フォーマットをサポートしています。来週にはUnityプラグインをリリースし、BlenderとUEプラグインも後に登場予定です。また、ウェブアプリでポリカウントを制御するオプションを追加する予定です。
高品質のテクスチャ。 Meshy-1はテクスチャ品質において画期的な進歩を遂げています。
- 4K解像度。 解像度は重要であり、Meshy-1のテクスチャは非常にシャープです。
- PBRチャンネル。 物理ベースのレンダリング(PBR)はゲームや映画で重要になっており、Meshy-1は物理的リアリズムのためにメタリック、ラフネス、ノーマルマップを出力します。
- Text to Textureのための複数のマテリアルサポート。 既存の3Dモデルにテクスチャを生成する場合、モデルには複数のUVセットやテクスチャマップのグループがあることがよくあります。私たちのテキストからテクスチャへのモードは、このようなケースにうまく対応します。
スタイルコントロール。 Meshy-1のText to 3DおよびText to Textureモードでは、リアリスティック、カートゥーン、アニメ、コミックなど、さまざまなアートスタイルを選択できます。これにより、テキストプロンプトだけでは得られないアートスタイルのコントロールが可能になります。
使い方
Meshy-1は、私たちのウェブアプリとDiscordの両方で簡単にアクセスできます。プラットフォーム間で似た機能を提供しながら、注目すべき特徴があります:
- Discord は無制限の無料生成を提供しますが、あなたの作品は生成チャンネルで公開されます。
- ウェブアプリ は毎日20回の無料生成を提供し、タスクキューイング、PBRチャンネル、スタイルコントロール、リンク共有、生成ワークスペースの管理などの追加機能があります。
最新のText to TextureおよびImage to 3D機能は、Discordとウェブアプリの両方で利用可能です。Discordで最新のText to 3Dを今日利用でき、数週間後にはウェブアプリでも利用可能になります。 では、これらの機能を実際の世界でどのように活用するのでしょうか?初期の採用者を通じて、効果的な3D生成のパターンが見つかりました。小道具(環境アート)にはText to 3Dを、キャラクターにはImage to 3Dを使用します。
小道具のためのText to 3D。 単にテキストプロンプトを入力し、Meshy-1があなたの説明に基づいてモデルを作成するのを待つだけで、ゲーム内の環境資産や「小道具」の生成に最適です。スタイルオプションを使用して、一貫したスタイルを確保してください。
ニューヨークを拠点とするシニアUEアーティストRenderManによって作成されたシーンで、すべてMeshy-1 Text to 3Dを使用して生成されています。キャラクターのためのImage to 3D。 正面画像を使用し、MidjourneyやStable Diffusionからの画像も含め、Meshy-1がそれを3Dモデルに変換します。Image to 3D機能は強力な出力制御を保証し、2D入力の真の3D表現を作成します。これはキャラクター作成において初期ユーザーに人気です。
東京のCGアーティストでMeshyの初期採用者であるSamuelによるシーン。すべてのキャラクターはMeshy-1 Image to 3Dを使用して生成され、Mixamoを使用してアニメーション化されています。どのように適切な画像を選ぶか?正面ビュー(カメラがキャラクターの正面に配置されている)とクリーンな背景を好みます。
Text to Textureを使用してモデルを再テクスチャリング。 実績のあるText to Textureモードを使用して、特にAIによって生成された既存のモデルのテクスチャを簡単に作成または置き換えることができます。
Beyond the Horizon
私たちの目標は、Meshyを3D GenAIの主要なプラットフォームとして確立することです。Meshy-1は大きな一歩を踏み出しましたが、これは決して最終章ではありません。実際、3DのGenAIの技術的進歩は、テキストや画像のGenAIよりも遅れています。これは、3Dがより多くの次元と複雑さを導入するためです。そのため、3D GenAI製品が本当に生産品質を満たすまでには時間がかかります。
Meshy-1の出力を最適化することに加え、ユーザーフィードバックと学習に基づいて、次のような製品ロードマップの道を探っています。
メッシュ品質の向上。 高ポリゴン数(通常100K以上)、UVアンラッピング品質の低さ、四角面の欠如など、生成AIの現在の制約は、生産準備が整った資産の生成におけるその能力を制限しています。これらの制約に対処することは、特にアニメーションでの四角面の好みやモバイルゲーム用の低ポリゴンモデルを考慮すると重要です。
会話型の反復。 ユーザーがMayaや3Ds Maxのような従来の3Dモデリングソフトウェアから離れるにつれ、AI生成出力に対する制御を強化したいと考えています。ChatGPTスタイルのマルチラウンドのインタラクションを思わせる反復的な洗練機能をユーザーに提供することが役立ちます。
制御の強化。 たとえば、ユーザーは正面、側面、背面など複数の2D視点から3Dモデルを生成したいと考えています。Image to 3Dにおいて、マルチビュー生成は重要な方向性であると考えています。
スタイルの一貫性を持つ出力。 スタイリスティックなレンダリングの一貫性は、ユーザーの繰り返しの要求であり、モデルが指定された視覚テーマに従う必要性を強調しています。 最後に、Meshy AIチーム全体に心からの感謝と称賛を送ります。私たちの現在の成功は、皆さんの揺るぎないコミットメントと努力の証です。未来を見据えると、地平線は希望に満ちており、共に革新し、卓越し続けることに疑いはありません。何かさらに素晴らしいものを発表しようとしているこの瞬間に、ぜひ関与し続けてください!
[1]Meshyの旅を始める前に、私はMITでCG & AIの博士号を取得し、SIGGRAPHやICLRのような著名な会議で発表された研究に貢献しました。博士課程を3.5年で修了した後、スタートアップの創業者として2.5年を過ごし、学術的な知識を実世界の製品構築の実践的な側面と結びつけ、このダイナミックな分野で学び成長し続けています。
[2]なぜ私たちなのか?Meshyチームは、MIT、ハーバード、NVIDIA、Microsoft、Google、Metaなどの著名な機関や企業からの専門家で構成されており、コンピュータグラフィックス、AI、GPU、微分可能プログラミング、クラウドコンピューティングに深い知識を持っています。これまでに、開発者およびユーザー中心の製品をユーザーベースに提供してきました。これらの経験は、3D生成AI製品を作成するための堅固な基盤を提供します。
[3]2023年3月にMeshy Texturerというツールをリリースしましたが、現在はMeshy-1がアップグレードされたText to Textureと共に登場しました。Meshy TexturerをText to 3DおよびImage to 3Dモードと組み合わせることで、AI生成出力のテクスチャを微調整することができます。
[4]ラボ環境で得られたデータです。サーバーの負荷が高い時期には、待ち時間が1分を超えることがあります。