Meshy-1: Generujte 3D modely s AI za pouhou minutu

Naší vizí je umožnit každému zhmotnit své 3D představy. Proto jsme vytvořili Meshy-1, rychlou generativní AI pro 3D, která umožňuje tvůrcům obsahu transformovat text a obrázky do poutavých 3D modelů za méně než minutu.

V tomto blogu s nadšením odhalujeme příběh za Meshy-1 a jeho schopnosti[]. Připravte se na úžas!

Proč je GenAI pro 3D důležitá (a obtížná)?

Nárůst 3D interaktivního obsahu, zejména v herním, filmovém a XR průmyslu, zvýšil poptávku po 3D modelech. Zkušení tvůrci čelí dlouhým výrobním časům, zatímco příležitostní tvůrci zápasí se složitými nástroji jako Maya nebo Blender. Tento rozdíl, umocněný překážkami v podobě nákladů a složitosti, volá po řešení.

Nyní je klíčový okamžik. S odhalením Apple Vision Pro a Meta představující Quest 3, spolu s rychlým pokrokem generativní AI technologie a rostoucím herním trhem, je kolektivní očekávání průlomové 3D generativní AI hmatatelné a zralé na realizaci.

V této vzrušující éře generativní AI se objevují četné silné produkty napříč různými modalitami. Například vidíme ChatGPT pro text, Midjourney pro obrázky a Runway pro videa.

Ačkoli by se mohlo zdát logické předpokládat, že generování 3D je dalším krokem, zajímavě, v této oblasti neexistuje žádný definitivní lídr, především proto, že recept na vytvoření snadno použitelného produktu zůstává neobjevený. Proč je tomu tak?

Moje cesta akademií i průmyslem [1] poskytuje pohled na důvody za tímto.

Výzva 1: Kompromis mezi kvalitou a rychlostí. V současné době existují dva převládající přístupy v oblasti 3D GenAI:

2D Lifting: Zvedání 2D generativních modelů (jako je Stable Diffusion) do 3D, využívající iterativní optimalizační techniky aplikované na struktury jako NeRFs. Tyto metody využívají mnoho 2D dat a mohou vytvářet různé kvalitní 3D modely, ale jsou pomalé a mohou trvat hodiny i na rychlých GPU jako RTX 3080.
3D Diffusion: Tento přístup výrazně zkracuje dobu generování na méně než 1 minutu na model. Protože není k dispozici mnoho 3D tréninkových dat, modely vytvořené tímto způsobem často postrádají dobrou kvalitu.

Současné metody jsou buď příliš pomalé, nebo postrádají požadovanou kvalitu, což brání vývoji efektivního produktu. Meshy se snaží být rychlý a kvalitní.

Proto není mnoho 3D GenAI produktů na trhu. Použití 3D diffusion vede k nízké kvalitě, zatímco 2D lifting způsobuje dlouhé čekací doby pro uživatele a vysoké náklady na servery. Náš tým tvrdě pracoval na kombinaci výhod obou přístupů a překonání kompromisu mezi kvalitou a rychlostí, čímž vytvořil produkt, který umožňuje uživatelům převést text/obrázky do kvalitních 3D modelů za méně než minutu.

Výzva 2: Propast mezi akademickými inovacemi a potřebami uživatelů. Produkt zaměřený na uživatele přesahuje pouhé algoritmy a váhy neuronových sítí; vyžaduje intuitivní uživatelská rozhraní a bezproblémové integrace s běžnými nástroji jako Unity a Blender. Navíc musí nabízet zvládnutelné počty polygonů vhodné pro mobilní hry a poskytovat efektivní ovládání obsahu/stylu pro autentické zhmotnění uživatelských nápadů. Ačkoli produktizace není raketová věda, vyžaduje hluboké produktové poznatky a hluboké porozumění CG průmyslu pro vývoj. [2]

Meshy-1: 3D GenAI Rychle a Skvěle

Jak bylo dříve uvedeno, pokud proces generování trvá hodiny, stává se obtížným vytvořit produkt, který by mohl škálovat i pro stovky uživatelů. Proto je pro tvůrce naléhavé nejprve vyřešit problém s rychlostí.

Představujeme Meshy-1, rychlou 3D generativní AI, která umožňuje tvůrcům obsahu transformovat text a obrázky do poutavých 3D modelů za méně než minutu. Meshy-1 má tři snadno použitelné režimy:

Text to 3D: Slova dovnitř, 3D modely ven
Image to 3D: Obrázky poskytnuty, 3D modely vyrobeny
Text to Texture: Texturujte své modely pomocí jednoduchých textových popisů [3]

Všechny tři režimy pracují rychle a poskytují výsledky za méně než 60 sekund.

Plně AI-generovaná scéna. Každý model v této scéně je generován pomocí Meshy-1 Text to 3D.

Na základě společného základu Meshy-1 sdílejí tři režimy společné funkce, které dříve nebyly dostupné v existujících produktech:

30x rychlejší. Existující produkty mohou nechat uživatele čekat hodiny, a my věříme, že to je nepřijatelné. Meshy-1 revolucionalizuje tento proces tím, že poskytuje výsledky za méně než minutu[4]. To nejen zlepšuje uživatelský zážitek a produktivitu, ale také nám umožňuje výrazně snížit náklady na generaci na straně uživatele.

Přátelský k pracovním postupům. Zajištění, že 3D modely jsou připraveny k použití v následných aplikacích, je kritické. Podporujeme výstupní formáty jako glb, usdz a fbx. Příští týden spouštíme plugin pro Unity, s pluginy pro Blender a UE přicházejícími později. Také plánujeme přidat možnost pro kontrolu počtu polygonů, která vám umožní snížit počet polygonů ve webové aplikaci.

Vysoce kvalitní textury. Meshy-1 přináší průlom v kvalitě textur.

4K rozlišení. Rozlišení je důležité a textury Meshy-1 jsou ostře ostré.
PBR kanály. Fyzikálně založené vykreslování (PBR) se stalo klíčovým v hrách a filmech, a Meshy-1 poskytuje metalické, drsné a normální mapy pro fyzický realismus.
Podpora více materiálů pro Text to Texture. Když generujete textury pro existující 3D model, často se stává, že váš model má více sad UV a více skupin texturových map. Náš režim text-to-texture takové případy dobře podporuje.

Kontrola stylu. V režimech Text to 3D a Text to Texture Meshy-1 můžete vybírat z různých uměleckých stylů pro vaši generaci, včetně Realistického, Kresleného, Anime, Komiksového a dalších. To vám poskytuje značnou kontrolu nad uměleckým stylem, nad rámec toho, co by samotné textové výzvy mohly umožnit.

Jak to používat?

Meshy-1 je snadno dostupný jak na naší webové aplikaci, tak na Discordu. Zatímco nabízí podobné funkce napříč platformami, existují určité funkce, které stojí za zmínku:

Discord poskytuje neomezené bezplatné generace, ačkoli vaše výtvory jsou veřejně viditelné na kanálu generace.
Webová aplikace poskytuje 20 bezplatných generací denně a přidává další schopnosti jako fronta úloh, PBR kanály, kontrola stylu, sdílení odkazů a správa vašeho pracovního prostoru pro generaci.

Nejnovější funkce Text to Texture a Image to 3D jsou snadno použitelné jak na Discordu, tak na webové aplikaci. Aktualizovaný Text to 3D můžete najít na Discordu již dnes a bude dostupný na webové aplikaci během několika týdnů. Jak tedy tyto funkce využít v reálném světě? Prostřednictvím raných uživatelů jsme našli vzory pro efektivní generování 3D: použijte Text to 3D pro rekvizity (environmentální umění) a Image to 3D pro postavy.

Text to 3D pro rekvizity. Jednoduše zadejte textový prompt a nechte Meshy-1 vytvořit modely podle vašeho popisu, ideální pro generování environmentálních objektů nebo "rekvizit" ve hrách. Zajistěte konzistentní styl pomocí naší možnosti stylu.

Scéna vytvořená RenderManem, seniorním UE umělcem z New Yorku, vše vygenerováno pomocí Meshy-1 Text to 3D.

Image to 3D pro postavy. Využijte obrázek z předního pohledu, včetně těch z Midjourney nebo Stable Diffusion, a Meshy-1 jej povýší na 3D model. Funkce Image to 3D zajišťuje silnou kontrolu výstupu, vytváří skutečnou 3D reprezentaci vašeho 2D vstupu, což ji činí oblíbenou mezi ranými uživateli pro tvorbu postav.

Scéna od Samuela, CG umělce v Tokiu, raného uživatele Meshy. Všechny postavy jsou vygenerovány pomocí Meshy-1 Image to 3D a poté animovány pomocí Mixamo.

Jak vybrat vhodné obrázky? Preferujte přední pohledy (s kamerou umístěnou přímo před postavou) a čisté pozadí.

Přetexturování modelů pomocí Text to Texture. Pomocí našeho osvědčeného režimu Text to Texture můžete snadno vytvářet nebo nahrazovat textury stávajících modelů, zejména těch generovaných AI.

Za horizontem

Naším cílem je etablovat Meshy jako přední platformu v 3D GenAI. Zatímco Meshy-1 představuje významný krok vpřed, rozhodně to není poslední kapitola. Ve skutečnosti technologický pokrok GenAI pro 3D zaostává za GenAI pro text nebo obrázky. To je proto, že 3D přináší více dimenzí a složitostí. Proto trvá čas, než 3D GenAI produkty skutečně dosáhnou produkční kvality.

Kromě optimalizace výstupů Meshy-1 zkoumáme následující cesty pro naši produktovou mapu, vedenou zpětnou vazbou od uživatelů a učením,

Zlepšená kvalita meshů. Současná omezení generativní AI, jako jsou vysoké počty polygonů (obvykle 100K+), špatná kvalita UV rozbalení a nedostatek čtvercových ploch, omezila její schopnost generovat produkčně připravené objekty. Řešení těchto omezení je zásadní, zejména s ohledem na preferenci průmyslu pro čtvercové plochy v animaci a modely s nízkým počtem polygonů pro mobilní hry.

Konverzační iterace. Jak se uživatelé odklánějí od tradičního 3D modelovacího softwaru jako Maya a 3Ds Max, touží po zvýšené kontrole nad výstupy generovanými AI. Je užitečné posílit uživatele schopnostmi iterativního zdokonalování, připomínajícími vícekolové interakce ve stylu ChatGPT.

Zvýšená kontrola. Například uživatelé si přejí vytvářet 3D modely generováním z více 2D perspektiv, jako jsou přední, boční a zadní pohledy. Pro Image to 3D věříme, že generování z více pohledů je důležitým směrem.

Výstupy s konzistencí stylu. Konzistence ve stylovém zobrazení je opakovaným požadavkem uživatelů, zdůrazňující potřebu, aby modely dodržovaly určené vizuální téma. Nakonec bych rád vyjádřil srdečné poděkování a pochvalu celému týmu Meshy AI. Náš současný úspěch je důkazem neochvějného odhodlání a úsilí každého z vás. Když se díváme dopředu, horizont je slibný a nemám pochyb o tom, že společně budeme i nadále inovovat a excelovat. Zůstaňte zapojeni, protože jsme na prahu odhalení něčeho ještě pozoruhodnějšího!

[1]Předtím, než jsem se vydal na cestu s Meshy, dokončil jsem doktorát v oboru CG & AI na MIT, přispívající k výzkumu publikovanému na renomovaných konferencích jako SIGGRAPH a ICLR. Po dokončení doktorského studia za 3,5 roku jsem strávil následujících 2,5 roku jako zakladatel startupu, což mi umožnilo propojit mé akademické znalosti s praktickými aspekty budování reálných produktů, a to vše při pokračujícím učení a růstu v tomto dynamickém oboru.

[2]Proč my? Tým Meshy se skládá z odborníků z prestižních institucí a společností jako MIT, Harvard, NVIDIA, Microsoft, Google a Meta, s hlubokými znalostmi v oblasti počítačové grafiky, AI, GPU, diferenciálního programování a cloud computingu. Dříve jsme vytvořili produkty zaměřené na vývojáře a uživatele, které byly dobře přijaty naší uživatelskou základnou. Tyto zkušenosti poskytují pevný základ pro tvorbu 3D generativního AI produktu.

[3]V březnu 2023 jsme spustili nástroj nazvaný Meshy Texturer, ale nyní je tu Meshy-1 s vylepšeným Text to Texture. Můžete kombinovat Meshy Texturer s našimi režimy Text to 3D a Image to 3D, což vám umožní doladit textury na výstupech generovaných AI.

[4]Data odvozena v laboratorním prostředí. Během období vysokého zatížení serveru může doba čekání přesáhnout jednu minutu.