MEDDELANDEN

Meshy-1: Generera 3D-modeller med AI på bara en minut

Vår vision är att ge alla möjlighet att förverkliga sina 3D-visioner. Det är därför vi skapade Meshy-1, en snabb generativ AI för 3D, som ger innehållsskapare möjlighet att omvandla text och bilder till fängslande 3D-modeller på under en minut. I denna blogg är vi glada att avslöja historien bakom Meshy-1 och dess kapaciteter. Förbered dig på att bli förbluffad!

Ethan
Almmuhuvvon: 2023 golggotmánnu 19

Vår vision är att ge alla möjlighet att förverkliga sina 3D-föreställningar. Därför skapade vi Meshy-1, en snabb generativ AI för 3D, som ger innehållsskapare möjlighet att omvandla text och bilder till fängslande 3D-modeller på under en minut.

I denna blogg är vi glada att avslöja historien bakom Meshy-1 och dess kapaciteter[]. Förbered dig på att bli förbluffad!

Varför är GenAI för 3D viktigt (och svårt)?

Ökningen av interaktivt 3D-innehåll, särskilt inom spel-, film- och XR-industrin, har ökat efterfrågan på 3D-modeller. Expertkreatörer står inför långa produktionstider, medan tillfälliga skapare kämpar med komplexa verktyg som Maya eller Blender. Denna klyfta, förstärkt av kostnads- och komplexitetsbarriärer, kräver en lösning.

Nu är det avgörande ögonblicket. Med lanseringen av Apples Vision Pro och Meta som introducerar Quest 3, i kombination med den snabba utvecklingen av generativ AI-teknologi och en växande spelmarknad, är den kollektiva förväntningen på en banbrytande 3D-generativ AI påtaglig och mogen för förverkligande.

Olika modaliteter av generativa AI-produkter, från text, bild till video, och kanske till 3D?

I denna spännande era av generativ AI dyker många kraftfulla produkter upp över olika modaliteter. Till exempel ser vi ChatGPT för text, Midjourney för bilder och Runway för videor.

Även om det kan verka logiskt att anta att 3D-generering är nästa steg, är det intressant nog ingen definitiv ledare inom detta område, främst för att receptet för att skapa en lättanvänd produkt ännu inte har upptäckts. Varför är det så?

Min resa genom både akademin och industrin [1] ger en inblick i orsakerna bakom detta.

Utmaning 1: Avvägningen mellan kvalitet och hastighet. För närvarande finns det två dominerande tillvägagångssätt inom området för 3D GenAI:

  • 2D Lifting: Höja 2D-generativa modeller (såsom Stable Diffusion) till 3D, med hjälp av iterativa optimeringstekniker tillämpade på strukturer som NeRFs. Dessa metoder använder mycket 2D-data och kan skapa olika högkvalitativa 3D-modeller, men det är långsamt och kan ta timmar även på snabba GPU:er som RTX 3080.
  • 3D Diffusion: Detta tillvägagångssätt minskar avsevärt genereringstiden till mindre än 1 minut per modell. Eftersom det inte finns mycket 3D-träningsdata tillgängligt, saknar modeller som görs på detta sätt ofta god kvalitet.

Avvägningen mellan kvalitet och hastighetNuvarande metoder är antingen för långsamma eller saknar önskad kvalitet, vilket hindrar utvecklingen av en effektiv produkt. Meshy strävar efter att vara både snabb och högkvalitativ.

Det är därför det inte finns många 3D GenAI-produkter där ute. Användning av 3D-diffusion resulterar i låg kvalitet, medan 2D-lifting leder till långa väntetider för användare och höga serverkostnader. Vårt team arbetade hårt för att kombinera fördelarna med de två tillvägagångssätten och övervinna avvägningen mellan kvalitet och hastighet, vilket skapade en produkt som låter användare omvandla text/bilder till bra 3D-modeller på under en minut.

Klyftan mellan forskning och användarbehov

Utmaning 2: Klyftan mellan akademiska innovationer och användarbehov. En användarcentrerad produkt övergår från enbart algoritmer och neurala nätverksvikter; den kräver intuitiva användargränssnitt och sömlösa integrationer med vanliga verktyg som Unity och Blender. Dessutom måste den erbjuda hanterbara polycounts som är lämpliga för mobilspel och tillhandahålla effektiv innehålls-/stilkontroll för att autentiskt förverkliga användaridéer. Även om produktifiering inte är raketforskning, kräver det djupgående produktinsikter och en djup förståelse för CG-industrin för att utvecklas. [2]

Meshy-1: 3D GenAI Gjord Snabbt och Fantastiskt

Som tidigare nämnts, om genereringsprocessen tar timmar, blir det utmanande att skapa en produkt som kan skalas till ens hundratals användare. Så som skapare är det brådskande att först lösa hastighetsproblemet.

Meshy feature bento grid

Introducerar Meshy-1, en snabb 3D-generativ AI, som ger innehållsskapare möjlighet att förvandla text och bilder till fängslande 3D-modeller på under en minut. Meshy-1 har tre lättanvända lägen:

  1. Text till 3D: Ord in, 3D-modeller ut
  2. Bild till 3D: Bilder in, 3D-modeller ut
  3. Text till Textur: Texturera dina modeller med enkla textbeskrivningar [3]

Alla tre lägen fungerar snabbt och ger dig resultat på under 60 sekunder.

En helt AI-genererad scen. Varje modell i denna scen är genererad med Meshy-1 Text till 3D.

Bygger på en gemensam Meshy-1 grund, de tre lägena delar gemensamma funktioner som tidigare inte var tillgängliga i befintliga produkter:

30x snabbare. Befintliga produkter kan låta användare vänta i timmar, och vi anser att det är oacceptabelt. Meshy-1 revolutionerar denna process genom att leverera resultat på under en minut[4]. Detta förbättrar inte bara användarupplevelsen och produktiviteten, utan Meshy-1:s anmärkningsvärda effektivitet gör det också möjligt för oss att avsevärt minska användarens kostnad per generering.

Arbetsflödesvänlig. Att säkerställa att 3D-modeller är redo att användas i nedströmsapplikationer är kritiskt. Vi stöder utdataformat som glb, usdz och fbx. Vi lanserar också en Unity-plugin nästa vecka, med Blender & UE-plugins som kommer senare. Vi planerar också att lägga till ett alternativ för polygonantal kontroll, som låter dig minska polygonantalet i webbappen.

Meshy unity plugin screenshot

Högkvalitativa texturer. Meshy-1 levererar ett genombrott i texturkvalitet.

  • 4K-upplösning. Upplösning är viktigt, och Meshy-1 texturer är skarpt skarpa.
  • PBR-kanaler. Physically Based Rendering (PBR) har blivit avgörande i spel och filmer, och Meshy-1 ger ut metalliska, grovhets- och normalmappar för fysisk realism.
  • Stöd för flera material för Text till Textur. När du genererar texturer för en befintlig 3D-modell, är det ofta så att din modell har flera uppsättningar UV:er och flera grupper av texturkartor. Vårt text-till-textur-läge stöder sådana fall väl.

Stilkontroll. I Meshy-1:s Text till 3D och Text till Textur-lägen, kan du välja mellan en mängd olika konstnärliga stilar för din generering, inklusive Realistisk, Tecknad, Anime, Serietidning, och mer. Detta ger dig betydande kontroll över konststilen, bortom vad textuella uppmaningar ensamma kan tillåta.

Hur Använder Man Det?

Meshy-1 är lättillgänglig både på vår webbapp och Discord. Medan den erbjuder liknande funktioner över plattformar, finns det distinkta funktioner att notera:

  • Discord erbjuder obegränsade gratisgenereringar, även om dina skapelser är offentligt synliga på genereringskanalen.
  • Webbappen ger 20 gratisgenereringar dagligen och lägger till ytterligare funktioner som köhantering, PBR-kanaler, stilkontroll, länkdelning och hantering av ditt genereringsarbetsutrymme.

De senaste Text till Textur och Bild till 3D-funktionerna är lättanvända både på Discord och webbappen. Du kan hitta den uppdaterade Text till 3D på Discord idag, och den kommer att vara tillgänglig på webbappen om några veckor. Så hur använder man dessa funktioner i verkligheten? Genom tidiga användare har vi funnit mönster för effektiv 3D-generering: använd Text to 3D för rekvisita (miljökonst) och Image to 3D för karaktärer.

Text to 3D för rekvisita. Ange helt enkelt en textprompt och låt Meshy-1 skapa modeller enligt din beskrivning, idealiskt för att generera miljömässiga tillgångar eller "rekvisita" i spel. Säkerställ en konsekvent stil med vårt stilalternativ.

Scen skapad av RenderMan, senior UE-artist baserad i New York, med allt genererat med Meshy-1 Text to 3D.

Image to 3D för karaktärer. Använd en bild från framsidan, inklusive de från Midjourney eller Stable Diffusion, och Meshy-1 kommer att höja den till en 3D-modell. Image to 3D-funktionen säkerställer stark kontroll över utdata, vilket skapar en genuin 3D-representation av din 2D-ingång, vilket gör den till en favorit bland tidiga användare för karaktärsskapande.

Scen av Samuel, CG-artist i Tokyo, Meshy tidig användare. Alla karaktärer är genererade med Meshy-1 Image to 3D och sedan animerade med Mixamo.

Hur väljer man lämpliga bilder? Föredra frontvyer (med kameran placerad direkt framför karaktären) och en ren bakgrund.

Bildexempel för bättre resultat

Retexturera modeller med Text to Texture. Med vårt beprövade Text to Texture-läge kan du enkelt skapa eller ersätta texturer på befintliga modeller, särskilt de som genereras av AI.

Bortom horisonten

Meshy i 3D generativ AI

Vårt mål är att etablera Meshy som den främsta plattformen inom 3D GenAI. Även om Meshy-1 markerar ett betydande framsteg, är det på inget sätt det sista kapitlet. Faktum är att den teknologiska utvecklingen av GenAI för 3D ligger efter den för text eller bilder. Detta beror på att 3D introducerar fler dimensioner och komplexiteter. Därför tar det tid för 3D GenAI-produkter att verkligen nå produktionskvalitet.

Förutom att optimera Meshy-1-utgångar, utforskar vi följande vägar för vår produktplan, vägledda av vår användarfeedback och lärdomar,

Förbättrad meshkvalitet. De nuvarande begränsningarna med generativ AI, såsom höga polygonantal (vanligtvis 100K+), dålig UV-unwrapping-kvalitet och bristen på fyrkantiga ytor, har begränsat dess förmåga att generera produktionsklara tillgångar. Att åtgärda dessa begränsningar är avgörande, särskilt med tanke på branschens preferens för fyrkantiga ytor i animation och modeller med lågt polygonantal för mobilspel.

Konversativa iterationer. När användare rör sig bort från traditionell 3D-modelleringsprogramvara som Maya och 3Ds Max, önskar de ökad kontroll över AI-genererade utdata. Det är hjälpsamt att ge användare möjlighet till iterativ förfining, påminnande om ChatGPT-stilens flerrundiga interaktioner.

Förbättrad kontroll. Till exempel önskar användare skapa 3D-modeller genom att generera dem från flera 2D-perspektiv, såsom fram-, sido- och bakvyer. För bild till 3D tror vi att flervy-generering är en viktig riktning att gå.

Utdata med stilkonsekvens. Konsekvens i stilistisk rendering är en återkommande användarefterfrågan, vilket betonar behovet av att modeller följer ett angivet visuellt tema. Slutligen, ett hjärtligt tack och beröm till hela Meshy AI-teamet. Vår nuvarande framgång är ett bevis på allas orubbliga engagemang och insatser. När vi ser framåt är horisonten lovande, och jag har ingen tvekan om att vi tillsammans kommer att fortsätta att innovera och utmärka oss. Håll er engagerade, eftersom vi är på gränsen till att avslöja något ännu mer anmärkningsvärt!

[1]Innan jag påbörjade resan med Meshy, avslutade jag min doktorsexamen i CG & AI vid MIT, där jag bidrog till forskning som publicerades vid välrenommerade konferenser som SIGGRAPH och ICLR. Efter att ha avslutat mina doktorandstudier på 3,5 år, har jag tillbringat de efterföljande 2,5 åren som startup-grundare, vilket har gjort det möjligt för mig att förena min akademiska kunskap med de praktiska aspekterna av att bygga verkliga produkter, samtidigt som jag fortsätter att lära och växa inom detta dynamiska område.

[2]Varför oss? Meshy-teamet består av experter från ansedda institutioner och företag som MIT, Harvard, NVIDIA, Microsoft, Google och Meta, med djupgående kunskap inom datorgrafik, AI, GPU:er, differentiell programmering och molnberäkning. Vi har tidigare byggt utvecklar- och användarcentrerade produkter som mottagits väl av vår användarbas. Dessa erfarenheter ger en solid grund för att skapa en 3D-generativ AI-produkt.

[3]Vi lanserade ett verktyg kallat Meshy Texturer i mars 2023, men nu är Meshy-1 här med en uppgraderad Text to Texture. Du kan para ihop Meshy Texturer med våra Text to 3D och Image to 3D-lägen, vilket gör att du kan finjustera texturerna på de AI-genererade resultaten.

[4]Data härledda i en laboratoriemiljö. Under perioder med hög serverbelastning kan väntetiderna överstiga en minut.

Čálli birra

Dr. Ethan (Yuanming) Hu is a co-founder and serves as the CEO of Meshy. He obtained his Ph.D. in computer graphics from MIT CSAIL in 2021. His Ph.D. research on differentiable GPU programming languages earned him an honorable mention for the SIGGRAPH 2022 Outstanding Doctoral Dissertation Award. In 2021, Ethan co-founded Meshy, a company focused on CG software. He's currently focused on building Meshy AI, a world-leading platform in 3D GenAI.

Meshy is a global startup headquartered in San Jose, CA.

Lei go dát čálus ávkkálaš?

Lås upp en snabbare 3D-arbetsflöde.

Transformera din designprocess med Meshy. Prova det nu och se din kreativitet komma till liv utan ansträngning!