Onze visie is om iedereen in staat te stellen hun 3D-verbeelding te realiseren. Daarom hebben we Meshy-1 gebouwd, een snelle generatieve AI voor 3D, die contentmakers in staat stelt om tekst en afbeeldingen om te zetten in boeiende 3D-modellen in minder dan een minuut.
In deze blog zijn we enthousiast om het verhaal achter Meshy-1 en zijn mogelijkheden te onthullen[]. Bereid je voor om versteld te staan!
Waarom is GenAI voor 3D belangrijk (en moeilijk)?
De toename van 3D interactieve content, vooral in de game-, film- en XR-industrieën, heeft de vraag naar 3D-modellen doen stijgen. Ervaren makers worden geconfronteerd met lange productietijden, terwijl casual makers worstelen met complexe tools zoals Maya of Blender. Deze kloof, versterkt door barrières van kosten en complexiteit, vraagt om een oplossing.
Nu is het cruciale moment. Met de onthulling van Apple's Vision Pro en Meta's introductie van de Quest 3, samen met de snelle vooruitgang van generatieve AI-technologie en een bloeiende gamemarkt, is de collectieve verwachting voor een baanbrekende 3D generatieve AI voelbaar en rijp voor realisatie.
In dit spannende tijdperk van generatieve AI verschijnen er talrijke krachtige producten in verschillende modaliteiten. Zo zien we ChatGPT voor tekst, Midjourney voor afbeeldingen en Runway voor video's.
Hoewel het logisch lijkt om 3D-generatie als de volgende stap te beschouwen, is er intrigerend genoeg geen definitieve leider in deze sfeer, voornamelijk omdat het recept voor het creëren van een gebruiksvriendelijk product nog niet is ontdekt. Waarom is dit het geval?
Mijn reis door zowel de academische wereld als de industrie [1] biedt een lens in de redenen hierachter.
Uitdaging 1: De afweging tussen kwaliteit en snelheid. Momenteel zijn er twee dominante benaderingen binnen het domein van 3D GenAI:
- 2D Lifting: Het verheffen van 2D-generatieve modellen (zoals Stable Diffusion) naar 3D, met behulp van iteratieve optimalisatietechnieken toegepast op structuren zoals NeRFs. Deze methoden gebruiken veel 2D-data en kunnen verschillende 3D-modellen van goede kwaliteit maken, maar het is traag en kan uren duren, zelfs op snelle GPU's zoals de RTX 3080.
- 3D Diffusie: Deze benadering verkort de generatietijd aanzienlijk tot minder dan 1 minuut per model. Omdat er niet veel 3D-trainingsdata beschikbaar is, missen modellen die op deze manier zijn gemaakt vaak goede kwaliteit.
Huidige methoden zijn ofwel te traag of missen de gewenste kwaliteit, wat de ontwikkeling van een effectief product belemmert. Meshy streeft ernaar zowel snel als van hoge kwaliteit te zijn.
Daarom zijn er niet veel 3D GenAI-producten beschikbaar. Het gebruik van 3D-diffusie resulteert in lage kwaliteit, terwijl 2D-lifting leidt tot lange wachttijden voor gebruikers en hoge serverkosten. Ons team heeft hard gewerkt om de voordelen van de twee benaderingen te combineren en de afweging tussen kwaliteit en snelheid te overwinnen, waardoor een product is ontstaan dat gebruikers in staat stelt om tekst/afbeeldingen om te zetten in goede 3D-modellen in minder dan een minuut.
Uitdaging 2: De kloof tussen academische innovaties en gebruikersbehoeften. Een gebruikersgericht product overstijgt louter algoritmen en neurale netwerkgewichten; het vereist intuïtieve gebruikersinterfaces en naadloze integraties met gangbare tools zoals Unity en Blender. Bovendien moet het beheersbare polycounts bieden die geschikt zijn voor mobiele games en effectieve content-/stijlcontrole bieden om gebruikersideeën authentiek te realiseren. Hoewel productontwikkeling geen raketwetenschap is, vereist het wel diepgaande productinzichten en een grondig begrip van de CG-industrie om te ontwikkelen. [2]
Meshy-1: 3D GenAI Snel en Uitstekend
Zoals eerder vermeld, als het genereren uren duurt, wordt het een uitdaging om een product te maken dat zelfs voor honderden gebruikers schaalbaar is. Dus als maker is het dringend om eerst het snelheidsprobleem op te lossen.
Maak kennis met Meshy-1, een snelle 3D generatieve AI, die contentmakers in staat stelt om tekst en afbeeldingen om te zetten in boeiende 3D modellen in minder dan een minuut. Meshy-1 heeft drie gebruiksvriendelijke modi:
- Tekst naar 3D: Woorden erin, 3D-modellen eruit
- Afbeelding naar 3D: Afbeeldingen geleverd, 3D-modellen geproduceerd
- Tekst naar Textuur: Textuur je modellen met eenvoudige tekstbeschrijvingen [3]
Alle drie de modi werken snel en geven je resultaten in minder dan 60 seconden.
Een volledig AI-gegenereerde scène. Elk model in deze scène is gegenereerd met Meshy-1 Tekst naar 3D.Gebaseerd op een gemeenschappelijke Meshy-1 basis, delen de drie modi gemeenschappelijke kenmerken die voorheen niet beschikbaar waren in bestaande producten:
30x sneller. Bestaande producten kunnen gebruikers uren laten wachten, en wij vinden dat onaanvaardbaar. Meshy-1 revolutioneert dit proces door resultaten te leveren in minder dan een minuut[4]. Dit verbetert niet alleen de gebruikerservaring en productiviteit, maar Meshy-1's opmerkelijke efficiëntie stelt ons ook in staat om de kosten per generatie aan de gebruikerszijde aanzienlijk te verlagen.
Workflow vriendelijk. Ervoor zorgen dat 3D-modellen klaar zijn voor gebruik in downstream-toepassingen is cruciaal. We ondersteunen uitvoerformaten zoals glb, usdz en fbx. We lanceren volgende week ook een Unity-plugin, met Blender & UE-plugins die later komen. We zijn ook van plan om een optie voor polycount-controle toe te voegen, waarmee je het polycount in de webapp kunt verminderen.
Hoogwaardige texturen. Meshy-1 levert een doorbraak in textuurkwaliteit.
- 4K resolutie. Resolutie is belangrijk, en Meshy-1 texturen zijn haarscherp.
- PBR kanalen. Physically Based Rendering (PBR) is van groot belang geworden in games en films, en Meshy-1 levert metallic, roughness en normal maps voor fysieke realisme.
- Ondersteuning voor meerdere materialen voor Tekst naar Textuur. Wanneer je texturen genereert voor een bestaand 3D-model, is het vaak zo dat je model meerdere sets UV's en meerdere groepen textuurkaarten heeft. Onze tekst-naar-textuur modus ondersteunt dergelijke gevallen goed.
Stijlcontrole. In de Tekst naar 3D en Tekst naar Textuur modi van Meshy-1, kun je kiezen uit een verscheidenheid aan artistieke stijlen voor je generatie, waaronder Realistisch, Cartoon, Anime, Comic, en meer. Dit biedt je aanzienlijke controle over de kunststijl, verder dan wat tekstuele prompts alleen zouden toestaan.
Hoe te Gebruiken?
Meshy-1 is gemakkelijk toegankelijk zowel op onze webapp als op Discord. Hoewel ze vergelijkbare functionaliteiten bieden op beide platforms, zijn er onderscheidende kenmerken om op te merken:
- Discord biedt onbeperkte gratis generaties, hoewel je creaties openbaar zichtbaar zijn op het generatiekanaal.
- De Web App biedt dagelijks 20 gratis generaties en voegt extra mogelijkheden toe zoals taakwachtrijen, PBR-kanalen, stijlcontrole, linkdeling en beheer van je generatie-werkruimte.
De nieuwste Tekst naar Textuur en Afbeelding naar 3D functies zijn gemakkelijk te gebruiken op zowel Discord als de webapp. Je kunt de bijgewerkte Tekst naar 3D vandaag op Discord vinden, en het zal over een paar weken beschikbaar zijn op de webapp. Dus hoe gebruik je deze functies in de echte wereld? Via vroege gebruikers hebben we patronen gevonden voor effectieve 3D-generatie: gebruik Tekst naar 3D voor rekwisieten (omgeving kunst), en Afbeelding naar 3D voor karakters.
Tekst naar 3D voor rekwisieten. Voer eenvoudig een tekstprompt in en laat Meshy-1 modellen maken volgens jouw beschrijving, ideaal voor het genereren van omgevingsobjecten of "rekwisieten" in games. Zorg voor een consistente stijl met behulp van onze stijloptie.
Scene gemaakt door RenderMan, senior UE artiest gevestigd in New York, met alles gegenereerd met Meshy-1 Tekst naar 3D.Afbeelding naar 3D voor karakters. Gebruik een afbeelding van voren, inclusief die van Midjourney of Stable Diffusion, en Meshy-1 zal het omzetten in een 3D-model. De Afbeelding naar 3D-functie zorgt voor sterke outputcontrole, waardoor een echte 3D-weergave van je 2D-invoer ontstaat, wat het een favoriet maakt onder vroege gebruikers voor karaktercreatie.
Scene door Samuel, CG artiest in Tokyo, Meshy vroege gebruiker. Alle karakters zijn gegenereerd met Meshy-1 Afbeelding naar 3D en vervolgens geanimeerd met Mixamo.Hoe selecteer je geschikte afbeeldingen? Geef de voorkeur aan vooraanzichten (met de camera direct voor het karakter) en een schone achtergrond.
Hergebruik modellen met Tekst naar Textuur. Met onze beproefde Tekst naar Textuur-modus kun je eenvoudig texturen van bestaande modellen creëren of vervangen, vooral die gegenereerd door AI.
Voorbij de Horizon
Ons doel is om Meshy te vestigen als het toonaangevende platform in 3D GenAI. Hoewel Meshy-1 een belangrijke stap voorwaarts markeert, is het zeker niet het laatste hoofdstuk. In feite loopt de technologische vooruitgang van GenAI voor 3D achter op die van GenAI voor tekst of afbeeldingen. Dit komt omdat 3D meer dimensies en complexiteiten introduceert. Daarom kost het tijd voor 3D GenAI-producten om echt aan productiekwaliteit te voldoen.
Naast het optimaliseren van Meshy-1 outputs, verkennen we de volgende wegen voor onze productroutekaart, geleid door onze gebruikersfeedback en leerervaringen,
Verbeterde mesh-kwaliteit. De huidige beperkingen van generatieve AI, zoals hoge polycounts (meestal 100K+), slechte UV-unwrapping kwaliteit, en het ontbreken van quad-faces, hebben zijn kracht beperkt in het genereren van productieklare assets. Het aanpakken van deze beperkingen is van vitaal belang, vooral gezien de voorkeur van de industrie voor quad-faces in animatie en modellen met een laag polycount voor mobiele games.
Conversatie-iteraties. Naarmate gebruikers zich afwenden van traditionele 3D-modelleringssoftware zoals Maya en 3Ds Max, verlangen ze naar meer controle over AI-gegenereerde outputs. Het is nuttig om gebruikers in staat te stellen met iteratieve verfijningsmogelijkheden, vergelijkbaar met ChatGPT-stijl multi-ronde interacties.
Verbeterde controle. Gebruikers willen bijvoorbeeld 3D-modellen maken door ze te genereren vanuit meerdere 2D-perspectieven, zoals voor-, zij- en achteraanzichten. Voor afbeelding naar 3D geloven we dat generatie vanuit meerdere perspectieven een belangrijke richting is om naartoe te gaan.
Outputs met stijlconsistentie. Consistentie in stilistische weergave is een terugkerende gebruikersvraag, wat de noodzaak benadrukt voor modellen om zich te houden aan een aangewezen visueel thema. Ten slotte, een oprechte waardering en lof voor het hele Meshy AI-team. Ons huidige succes is een bewijs van ieders onwankelbare inzet en inspanningen. Terwijl we vooruitkijken, is de horizon veelbelovend, en ik twijfel er niet aan dat we samen zullen blijven innoveren en uitblinken. Blijf betrokken, want we staan op het punt om iets nog opmerkelijkers te onthullen!
[1]Voordat ik aan het Meshy-avontuur begon, voltooide ik mijn Ph.D. in CG & AI aan MIT, waarbij ik bijdroeg aan onderzoek dat werd gepubliceerd op gerenommeerde conferenties zoals SIGGRAPH en ICLR. Na het afronden van mijn doctoraat in 3,5 jaar, heb ik de daaropvolgende 2,5 jaar als startup-oprichter doorgebracht, waardoor ik mijn academische kennis kon overbruggen met de praktische aspecten van het bouwen van producten in de echte wereld, terwijl ik bleef leren en groeien in dit dynamische veld.
[2]Waarom wij? Het Meshy-team bestaat uit experts van gerenommeerde instellingen en bedrijven zoals MIT, Harvard, NVIDIA, Microsoft, Google en Meta, met diepgaande kennis van computergraphics, AI, GPU's, differentieerbare programmering en cloud computing. We hebben eerder ontwikkelaars- en gebruikersgerichte producten gebouwd die goed werden ontvangen door onze gebruikersbasis. Deze ervaringen bieden een solide basis voor het ontwikkelen van een 3D generatief AI-product.
[3]We lanceerden een tool genaamd Meshy Texturer in maart 2023, maar nu is Meshy-1 hier met een geüpgradede Text to Texture. Je kunt Meshy Texturer koppelen met onze Text to 3D en Image to 3D-modi, zodat je de texturen op de door AI gegenereerde outputs kunt verfijnen.
[4]Gegevens afgeleid in een laboratoriumomgeving. Tijdens perioden van hoge serverbelasting kunnen wachttijden langer dan een minuut zijn.