Unsere Vision ist es, jedem die Möglichkeit zu geben, seine 3D-Vorstellungen zu verwirklichen. Deshalb haben wir Meshy-1 entwickelt, eine schnelle generative KI für 3D, die Content-Ersteller befähigt, Texte und Bilder in fesselnde 3D-Modelle in weniger als einer Minute zu verwandeln.
In diesem Blog freuen wir uns, die Geschichte hinter Meshy-1 und seine Fähigkeiten zu enthüllen[]. Bereiten Sie sich darauf vor, beeindruckt zu sein!
Warum ist GenAI für 3D wichtig (und schwierig)?
Der Anstieg an interaktiven 3D-Inhalten, insbesondere in der Spiele-, Film- und XR-Industrie, hat die Nachfrage nach 3D-Modellen in die Höhe getrieben. Experten stehen vor langen Produktionszeiten, während Gelegenheitsnutzer mit komplexen Tools wie Maya oder Blender kämpfen. Diese Lücke, verstärkt durch Kosten- und Komplexitätsbarrieren, erfordert eine Lösung.
Jetzt ist der entscheidende Moment. Mit der Enthüllung von Apples Vision Pro und Metas Einführung der Quest 3, gepaart mit dem schnellen Fortschritt der generativen KI-Technologie und einem aufstrebenden Gaming-Markt, ist die kollektive Erwartung an eine bahnbrechende 3D-generative KI spürbar und bereit für die Verwirklichung.
In dieser aufregenden Ära der generativen KI tauchen zahlreiche leistungsstarke Produkte in verschiedenen Modalitäten auf. Zum Beispiel sehen wir ChatGPT für Text, Midjourney für Bilder und Runway für Videos.
Obwohl es logisch erscheint, die 3D-Generierung als den nächsten Schritt zu vermuten, gibt es interessanterweise keinen eindeutigen Marktführer in diesem Bereich, hauptsächlich weil das Rezept für die Erstellung eines einfach zu bedienenden Produkts noch unentdeckt ist. Warum ist das so?
Meine Reise durch die akademische Welt und die Industrie [1] bietet einen Einblick in die Gründe dafür.
Herausforderung 1: Der Kompromiss zwischen Qualität und Geschwindigkeit. Derzeit gibt es zwei vorherrschende Ansätze im Bereich der 3D-GenAI:
- 2D-Lifting: Erhöhung von 2D-generativen Modellen (wie Stable Diffusion) auf 3D, unter Verwendung iterativer Optimierungstechniken, die auf Strukturen wie NeRFs angewendet werden. Diese Methoden nutzen viele 2D-Daten und können verschiedene qualitativ hochwertige 3D-Modelle erstellen, sind jedoch langsam und können selbst auf schnellen GPUs wie der RTX 3080 Stunden dauern.
- 3D-Diffusion: Dieser Ansatz reduziert die Generierungszeit erheblich auf weniger als 1 Minute pro Modell. Da es nicht viele 3D-Trainingsdaten gibt, fehlt es den auf diese Weise erstellten Modellen oft an guter Qualität.
Aktuelle Methoden sind entweder zu langsam oder es fehlt ihnen an der gewünschten Qualität, was die Entwicklung eines effektiven Produkts behindert. Meshy zielt darauf ab, sowohl schnell als auch hochwertig zu sein.
Deshalb gibt es nicht viele 3D-GenAI-Produkte. Die Verwendung von 3D-Diffusion führt zu niedriger Qualität, während 2D-Lifting lange Wartezeiten für Benutzer und hohe Serverkosten verursacht. Unser Team hat hart daran gearbeitet, die Vorteile der beiden Ansätze zu kombinieren und den Kompromiss zwischen Qualität und Geschwindigkeit zu überwinden, um ein Produkt zu schaffen, das es Benutzern ermöglicht, Texte/Bilder in gute 3D-Modelle in weniger als einer Minute zu verwandeln.
Herausforderung 2: Die Kluft zwischen akademischen Innovationen und Benutzerbedürfnissen. Ein benutzerzentriertes Produkt geht über bloße Algorithmen und neuronale Netzwerkgewichte hinaus; es erfordert intuitive Benutzeroberflächen und nahtlose Integrationen mit gängigen Tools wie Unity und Blender. Darüber hinaus muss es verwaltbare Polygonzahlen bieten, die für mobile Spiele geeignet sind, und effektive Inhalts-/Stilkontrolle bieten, um Benutzerideen authentisch zu verwirklichen. Während die Produktentwicklung keine Raketenwissenschaft ist, erfordert sie tiefgehende Produktkenntnisse und ein tiefes Verständnis der CG-Industrie, um entwickelt zu werden. [2]
Meshy-1: 3D GenAI Schnell und Hervorragend
Wie bereits erwähnt, wird es schwierig, ein Produkt zu erstellen, das auf Hunderte von Nutzern skaliert, wenn der Generierungsprozess Stunden dauert. Daher ist es für einen Entwickler dringend erforderlich, zunächst das Geschwindigkeitsproblem zu lösen.
Vorstellung von Meshy-1, einer schnellen 3D-generativen KI, die Content-Ersteller befähigt, Text und Bilder in faszinierende 3D-Modelle in weniger als einer Minute zu verwandeln. Meshy-1 bietet drei einfach zu bedienende Modi:
- Text zu 3D: Worte rein, 3D-Modelle raus
- Bild zu 3D: Bilder bereitgestellt, 3D-Modelle produziert
- Text zu Textur: Texturieren Sie Ihre Modelle mit einfachen Textbeschreibungen [3]
Alle drei Modi arbeiten schnell und liefern Ergebnisse in weniger als 60 Sekunden.
Eine vollständig KI-generierte Szene. Jedes Modell in dieser Szene wurde mit Meshy-1 Text zu 3D generiert.Aufbauend auf einer gemeinsamen Meshy-1-Basis, teilen die drei Modi gemeinsame Funktionen, die in bestehenden Produkten bisher nicht verfügbar waren:
30x schneller. Bestehende Produkte können Benutzer stundenlang warten lassen, und wir glauben, dass das inakzeptabel ist. Meshy-1 revolutioniert diesen Prozess, indem es Ergebnisse in weniger als einer Minute liefert[4]. Dies verbessert nicht nur die Benutzererfahrung und Produktivität, sondern Meshy-1's bemerkenswerte Effizienz ermöglicht es uns auch, die Kosten pro Generierung für den Benutzer erheblich zu senken.
Workflow-freundlich. Sicherzustellen, dass 3D-Modelle in nachgelagerten Anwendungen einsatzbereit sind, ist entscheidend. Wir unterstützen Ausgabeformate wie glb, usdz und fbx. Nächste Woche bringen wir ein Unity-Plugin auf den Markt, und später folgen Plugins für Blender & UE. Wir planen auch, eine Option zur Polycount-Kontrolle hinzuzufügen, die es ermöglicht, die Polygonanzahl in der Web-App zu reduzieren.
Hochwertige Texturen. Meshy-1 bietet einen Durchbruch in der Texturqualität.
- 4K-Auflösung. Auflösung ist wichtig, und Meshy-1-Texturen sind gestochen scharf.
- PBR-Kanäle. Physically Based Rendering (PBR) ist in Spielen und Filmen von entscheidender Bedeutung geworden, und Meshy-1 liefert metallische, Rauhigkeits- und Normalmaps für physikalischen Realismus.
- Unterstützung mehrerer Materialien für Text zu Textur. Wenn Sie Texturen für ein bestehendes 3D-Modell generieren, hat Ihr Modell oft mehrere UV-Sets und mehrere Gruppen von Texturkarten. Unser Text-zu-Textur-Modus unterstützt solche Fälle gut.
Stilkontrolle. In den Modi Text zu 3D und Text zu Textur von Meshy-1 können Sie aus einer Vielzahl künstlerischer Stile für Ihre Generierung wählen, darunter Realistisch, Cartoon, Anime, Comic und mehr. Dies bietet Ihnen erhebliche Kontrolle über den Kunststil, über das hinaus, was allein durch Text-Prompts möglich wäre.
Wie benutzt man es?
Meshy-1 ist sowohl in unserer Web-App als auch auf Discord leicht zugänglich. Während ähnliche Funktionen auf beiden Plattformen angeboten werden, gibt es einige bemerkenswerte Unterschiede:
- Discord bietet unbegrenzte kostenlose Generierungen, obwohl Ihre Kreationen im Generierungskanal öffentlich sichtbar sind.
- Die Web-App gewährt 20 kostenlose Generierungen täglich und fügt zusätzliche Funktionen wie Aufgabenwarteschlangen, PBR-Kanäle, Stilkontrolle, Linkfreigabe und Verwaltung Ihres Generierungsarbeitsbereichs hinzu.
Die neuesten Funktionen Text zu Textur und Bild zu 3D sind sowohl auf Discord als auch in der Web-App sofort nutzbar. Sie können das aktualisierte Text zu 3D heute auf Discord finden, und es wird in ein paar Wochen in der Web-App verfügbar sein. Wie nutzt man diese Funktionen in der realen Welt? Durch frühe Anwender haben wir Muster für eine effektive 3D-Generierung gefunden: Verwenden Sie Text zu 3D für Requisiten (Umgebungskunst) und Bild zu 3D für Charaktere.
Text zu 3D für Requisiten. Geben Sie einfach eine Texteingabe ein und lassen Sie Meshy-1 Modelle gemäß Ihrer Beschreibung erstellen, ideal zur Generierung von Umgebungsobjekten oder "Requisiten" in Spielen. Stellen Sie einen konsistenten Stil mit unserer Stiloption sicher.
Szene erstellt von RenderMan, einem Senior UE-Künstler mit Sitz in New York, wobei alles mit Meshy-1 Text zu 3D generiert wurde.Bild zu 3D für Charaktere. Nutzen Sie ein Frontalbild, einschließlich solcher von Midjourney oder Stable Diffusion, und Meshy-1 wird es in ein 3D-Modell umwandeln. Die Bild zu 3D-Funktion gewährleistet eine starke Kontrolle über das Ergebnis und schafft eine echte 3D-Darstellung Ihres 2D-Eingangs, was es bei frühen Nutzern zur Charaktererstellung beliebt macht.
Szene von Samuel, CG-Künstler in Tokio, Meshy-Frühadoptor. Alle Charaktere wurden mit Meshy-1 Bild zu 3D generiert und dann mit Mixamo animiert.Wie wählt man geeignete Bilder aus? Bevorzugen Sie Frontalansichten (mit der Kamera direkt vor dem Charakter positioniert) und einen sauberen Hintergrund.
Modelle mit Text zu Textur neu texturieren. Mit unserem erprobten Text zu Textur-Modus können Sie einfach Texturen bestehender Modelle erstellen oder ersetzen, insbesondere solcher, die von KI generiert wurden.
Jenseits des Horizonts
Unser Ziel ist es, Meshy als die führende Plattform im Bereich 3D GenAI zu etablieren. Während Meshy-1 einen bedeutenden Fortschritt darstellt, ist es keineswegs das letzte Kapitel. Tatsächlich hinkt der technologische Fortschritt von GenAI für 3D hinter dem von GenAI für Text oder Bilder hinterher. Dies liegt daran, dass 3D mehr Dimensionen und Komplexitäten einführt. Daher dauert es, bis 3D GenAI-Produkte wirklich Produktionsqualität erreichen.
Neben der Optimierung der Meshy-1-Ausgaben erkunden wir die folgenden Wege für unsere Produkt-Roadmap, geleitet von unserem Nutzerfeedback und unseren Erkenntnissen,
Verbesserte Mesh-Qualität. Die aktuellen Einschränkungen der generativen KI, wie hohe Polygonzahlen (normalerweise 100K+), schlechte UV-Unwrapping-Qualität und das Fehlen von Quad-Faces, haben ihre Fähigkeit eingeschränkt, produktionsreife Assets zu generieren. Diese Einschränkungen zu beheben, ist entscheidend, insbesondere angesichts der Vorliebe der Branche für Quad-Faces in Animationen und Modelle mit niedriger Polygonzahl für mobile Spiele.
Konversationelle Iterationen. Da sich Nutzer von traditioneller 3D-Modellierungssoftware wie Maya und 3Ds Max abwenden, wünschen sie sich mehr Kontrolle über die von KI generierten Ausgaben. Es ist hilfreich, Nutzern die Möglichkeit zu geben, iterative Verfeinerungen vorzunehmen, ähnlich wie bei ChatGPT-ähnlichen Multi-Runden-Interaktionen.
Erweiterte Kontrolle. Beispielsweise möchten Nutzer 3D-Modelle erstellen, indem sie sie aus mehreren 2D-Perspektiven generieren, wie z.B. Vorder-, Seiten- und Rückansichten. Für Bild zu 3D glauben wir, dass die Generierung aus mehreren Ansichten eine wichtige Richtung ist.
Ausgaben mit Stil-Konsistenz. Konsistenz in der stilistischen Darstellung ist eine wiederkehrende Anforderung der Nutzer, was die Notwendigkeit betont, dass Modelle einem festgelegten visuellen Thema folgen. Schließlich ein herzliches Dankeschön und Anerkennung an das gesamte Meshy AI-Team. Unser aktueller Erfolg ist ein Beweis für das unerschütterliche Engagement und die Bemühungen aller. Wenn wir nach vorne blicken, ist der Horizont vielversprechend, und ich habe keinen Zweifel daran, dass wir gemeinsam weiterhin innovativ und exzellent sein werden. Bleiben Sie engagiert, denn wir stehen kurz davor, etwas noch Bemerkenswerteres zu enthüllen!
[1]Bevor ich die Reise mit Meshy antrat, habe ich meinen Ph.D. in CG & AI am MIT abgeschlossen und zu Forschungen beigetragen, die auf renommierten Konferenzen wie SIGGRAPH und ICLR veröffentlicht wurden. Nach dem Abschluss meiner Doktorarbeit in 3,5 Jahren habe ich die darauffolgenden 2,5 Jahre als Startup-Gründer verbracht, was mir ermöglichte, mein akademisches Wissen mit den praktischen Aspekten der Entwicklung von realen Produkten zu verbinden, während ich weiterhin in diesem dynamischen Bereich lerne und wachse.
[2]Warum wir? Das Meshy-Team besteht aus Experten von angesehenen Institutionen und Unternehmen wie MIT, Harvard, NVIDIA, Microsoft, Google und Meta, mit tiefem Wissen in Computergraphik, KI, GPUs, differenzierbarer Programmierung und Cloud-Computing. Wir haben zuvor Entwickler- und benutzerzentrierte Produkte entwickelt, die von unserer Nutzerbasis gut angenommen wurden. Diese Erfahrungen bieten eine solide Grundlage für die Entwicklung eines 3D-generativen KI-Produkts.
[3]Wir haben im März 2023 ein Tool namens Meshy Texturer eingeführt, aber jetzt ist Meshy-1 mit einem verbesserten Text to Texture verfügbar. Sie können Meshy Texturer mit unseren Text to 3D- und Image to 3D-Modi kombinieren, um die Texturen auf den KI-generierten Ausgaben fein abzustimmen.
[4]Daten, die in einem Laborexperiment gewonnen wurden. Während Zeiten hoher Serverauslastung können die Wartezeiten eine Minute überschreiten.