MGA ANUNSYO

Meshy-1: Gumawa ng 3D Models gamit ang AI sa Loob ng Isang Minuto

Ang aming bisyon ay bigyang kapangyarihan ang lahat na maisakatuparan ang kanilang mga 3D na imahinasyon. Kaya't ginawa namin ang Meshy-1, isang mabilis na generative AI para sa 3D, na nagbibigay kapangyarihan sa mga tagalikha ng nilalaman na gawing mga kahanga-hangang 3D na modelo ang teksto at mga imahe sa loob lamang ng isang minuto. Sa blog na ito, ikinagagalak naming ilahad ang kwento sa likod ng Meshy-1 at ang mga kakayahan nito. Maghanda upang mamangha!

Ethan
Posted: October 19, 2023

Ang aming pananaw ay bigyang kapangyarihan ang lahat na maisakatuparan ang kanilang 3D na imahinasyon. Iyon ang dahilan kung bakit namin binuo ang Meshy-1, isang mabilis na generative AI para sa 3D, na nagbibigay kapangyarihan sa mga tagalikha ng nilalaman na gawing mga nakakaakit na 3D na modelo ang teksto at mga imahe sa loob lamang ng isang minuto.

Sa blog na ito, nasasabik kaming ilahad ang kwento sa likod ng Meshy-1 at ang mga kakayahan nito[]. Maghanda upang mamangha!

Bakit mahalaga (at mahirap) ang GenAI para sa 3D?

Ang pagtaas ng 3D interactive na nilalaman, lalo na sa industriya ng laro, pelikula, at XR, ay nagdulot ng pagtaas ng pangangailangan para sa mga 3D na modelo. Ang mga dalubhasang tagalikha ay nahaharap sa mahabang oras ng produksyon, habang ang mga kaswal na tagalikha ay nahihirapan sa mga kumplikadong tool tulad ng Maya o Blender. Ang puwang na ito, na pinalala ng mga hadlang sa gastos at pagiging kumplikado, ay nangangailangan ng solusyon.

Ngayon ang mahalagang sandali. Sa pag-unveil ng Vision Pro ng Apple at Meta na nagpapakilala sa Quest 3, kasabay ng mabilis na pag-unlad ng teknolohiya ng generative AI at isang lumalagong merkado ng gaming, ang kolektibong pag-asam para sa isang makabago at makapangyarihang 3D generative AI ay malinaw at handa nang maisakatuparan.

Iba't ibang modalidad ng mga produktong generative AI, mula sa teksto, imahe hanggang sa video, at marahil sa 3d?

Sa kapanapanabik na panahon ng generative AI, maraming makapangyarihang produkto ang lumilitaw sa iba't ibang modalidad. Halimbawa, nakikita natin ang ChatGPT para sa teksto, Midjourney para sa mga imahe, at Runway para sa mga video.

Habang maaaring mukhang lohikal na ipalagay na ang 3D generation ang susunod na hakbang, nakakaintriga na walang tiyak na lider sa larangang ito, pangunahin dahil ang resipe para sa paglikha ng isang madaling gamitin na produkto ay nananatiling hindi natutuklasan. Bakit ganito ang kaso?

Ang aking paglalakbay sa parehong akademya at industriya [1] ay nagbibigay ng lens sa mga dahilan sa likod nito.

Hamon 1: Ang trade-off sa pagitan ng kalidad at bilis. Sa kasalukuyan, mayroong dalawang pangunahing pamamaraan sa loob ng larangan ng 3D GenAI:

  • 2D Lifting: Itinaas ang mga 2D generative models (tulad ng Stable Diffusion) sa 3D, gamit ang mga iterative optimization techniques na inilalapat sa mga istruktura tulad ng NeRFs. Ang mga pamamaraang ito ay gumagamit ng maraming 2D data at maaaring lumikha ng iba't ibang magagandang kalidad na 3D na modelo, ngunit ito ay mabagal at maaaring tumagal ng ilang oras kahit na sa mabilis na GPUs tulad ng RTX 3080.
  • 3D Diffusion: Ang pamamaraang ito ay makabuluhang nagpapababa ng oras ng pagbuo sa mas mababa sa 1 minuto kada modelo. Dahil may kaunting 3D training data na magagamit, ang mga modelong ginawa sa ganitong paraan ay madalas na kulang sa magandang kalidad.

Ang trade-off sa pagitan ng kalidad at bilisAng kasalukuyang mga pamamaraan ay alinman sa masyadong mabagal o kulang sa nais na kalidad, na pumipigil sa pag-unlad ng isang epektibong produkto. Layunin ng Meshy na maging parehong mabilis at may mataas na kalidad.

Iyon ang dahilan kung bakit kakaunti ang mga produktong 3D GenAI sa merkado. Ang paggamit ng 3D diffusion ay nagreresulta sa mababang kalidad, habang ang 2D lifting ay nagdudulot ng mahabang oras ng paghihintay para sa mga gumagamit at mataas na gastos sa server. Ang aming koponan ay nagsikap na pagsamahin ang mga benepisyo ng dalawang pamamaraan at talunin ang trade-off sa pagitan ng kalidad at bilis, na lumilikha ng isang produkto na nagpapahintulot sa mga gumagamit na gawing magagandang 3D na modelo ang teksto/mga imahe sa loob ng isang minuto.

Ang agwat sa pagitan ng pananaliksik at mga pangangailangan ng gumagamit

Hamon 2: Ang agwat sa pagitan ng mga inobasyon sa akademya at mga pangangailangan ng gumagamit. Ang isang user-centric na produkto ay lampas sa mga simpleng algorithm at mga timbang ng neural network; nangangailangan ito ng mga intuitive na user interfaces at seamless na integrasyon sa mga kilalang tool tulad ng Unity at Blender. Bukod pa rito, dapat itong mag-alok ng mga manageable polycounts na angkop para sa mobile gaming at magbigay ng epektibong content/style control upang tunay na maisakatuparan ang mga ideya ng gumagamit. Habang ang pag-productize ay hindi rocket science, nangangailangan ito ng malalim na pananaw sa produkto at isang malalim na pag-unawa sa industriya ng CG upang ma-develop. [2]

Meshy-1: 3D GenAI Made Fast and Superb

Tulad ng nabanggit na, kung ang proseso ng pagbuo ay umaabot ng ilang oras, nagiging mahirap lumikha ng isang produkto na maaaring mag-scale kahit sa daan-daang mga gumagamit. Kaya bilang isang tagalikha, mahalaga na agad na lutasin ang isyu sa bilis.

Meshy feature bento grid

Ipinapakilala ang Meshy-1, isang mabilis na 3D generative AI, na nagbibigay kapangyarihan sa mga tagalikha ng nilalaman na gawing teksto at mga imahe ang mga kahanga-hangang 3D na modelo sa loob lamang ng isang minuto. Ang Meshy-1 ay may tatlong madaling gamitin na mga mode:

  1. Text to 3D: Mga salita papasok, 3D na mga modelo palabas
  2. Image to 3D: Mga larawan ibinigay, 3D na mga modelo nalikha
  3. Text to Texture: I-texture ang iyong mga modelo gamit ang simpleng mga paglalarawan ng teksto [3]

Ang lahat ng tatlong mode ay mabilis na gumagana at nagbibigay sa iyo ng mga resulta sa loob ng 60 segundo.

Isang ganap na AI-generated na eksena. Bawat modelo sa eksenang ito ay nalikha gamit ang Meshy-1 Text to 3D.

Batay sa isang karaniwang pundasyon ng Meshy-1, ang tatlong mode ay may mga karaniwang tampok na dati ay hindi magagamit sa mga umiiral na produkto:

30x na mas mabilis. Ang mga umiiral na produkto ay maaaring mag-iwan ng mga gumagamit na naghihintay ng ilang oras, at naniniwala kami na hindi ito katanggap-tanggap. Binabago ng Meshy-1 ang prosesong ito sa pamamagitan ng paghahatid ng mga resulta sa loob ng isang minuto[4]. Hindi lamang nito pinapahusay ang karanasan ng gumagamit at produktibidad, kundi pati na rin ang kahanga-hangang kahusayan ng Meshy-1 ay nagbibigay-daan sa amin na makabuluhang bawasan ang gastos ng bawat pagbuo sa panig ng gumagamit.

Workflow friendly. Siguraduhing ang mga 3D na modelo ay handa nang gamitin sa mga downstream na aplikasyon ay kritikal. Sinusuportahan namin ang mga output format tulad ng glb, usdz at fbx. Maglulunsad din kami ng Unity plugin sa susunod na linggo, na may Blender & UE plugins na darating pa. Plano rin naming magdagdag ng opsyon para sa polycount control, na nagbibigay-daan sa iyo na bawasan ang polycount sa web app.

Meshy unity plugin screenshot

Mataas na kalidad ng mga texture. Nagbibigay ang Meshy-1 ng isang tagumpay sa kalidad ng texture.

  • 4K na resolusyon. Mahalaga ang resolusyon, at ang mga texture ng Meshy-1 ay malinaw at matalas.
  • PBR channels. Ang Physically Based Rendering (PBR) ay naging mahalaga sa mga laro at pelikula, at ang Meshy-1 ay naglalabas ng metallic, roughness, at normal maps para sa pisikal na realismo.
  • Suporta sa maraming materyal para sa Text to Texture. Kapag ikaw ay bumubuo ng mga texture para sa isang umiiral na 3D na modelo, madalas na ang iyong modelo ay may maraming set ng UVs at maraming grupo ng mga texture map. Ang aming text-to-texture mode ay mahusay na sumusuporta sa mga ganitong kaso.

Kontrol sa estilo. Sa Text to 3D at Text to Texture mode ng Meshy-1, maaari kang pumili mula sa iba't ibang mga istilo ng sining para sa iyong pagbuo, kabilang ang Realistic, Cartoon, Anime, Comic, at iba pa. Nagbibigay ito sa iyo ng makabuluhang kontrol sa istilo ng sining, higit pa sa kung ano ang maaaring payagan ng mga tekstuwal na prompt lamang.

Paano Ito Gamitin?

Ang Meshy-1 ay madaling ma-access sa parehong aming web app at Discord. Habang nag-aalok ng katulad na mga pag-andar sa mga platform, may mga natatanging tampok na dapat tandaan:

  • Discord ay nagbibigay ng walang limitasyong libreng mga pagbuo, bagaman ang iyong mga nilikha ay pampublikong makikita sa generation channel.
  • Ang Web App ay nagbibigay ng 20 libreng mga pagbuo araw-araw at nagdadagdag ng karagdagang mga kakayahan tulad ng task queuing, PBR channels, kontrol sa istilo, pagbabahagi ng link, at pamamahala ng iyong generation workspace.

Ang pinakabagong Text to Texture at Image to 3D na mga tampok ay madaling magamit sa parehong Discord at web app. Maaari mong mahanap ang na-update na Text to 3D sa Discord ngayon, at ito ay magiging magagamit sa web app sa loob ng ilang linggo. Paano gamitin ang mga tampok na ito sa totoong mundo? Sa pamamagitan ng mga unang gumagamit, nakahanap kami ng mga pattern para sa epektibong 3D generation: gamitin ang Text to 3D para sa props (environment art), at Image to 3D para sa mga karakter.

Text to 3D para sa props. Ipasok lamang ang isang text prompt at hayaang lumikha ang Meshy-1 ng mga modelo ayon sa iyong paglalarawan, perpekto para sa pagbuo ng mga environmental asset o "props" sa mga laro. Tiyakin ang pare-parehong estilo gamit ang aming style option.

Eksena na nilikha ni RenderMan, senior UE artist na nakabase sa New York, na lahat ay nilikha gamit ang Meshy-1 Text to 3D.

Image to 3D para sa mga karakter. Gamitin ang isang front view na imahe, kabilang ang mga mula sa Midjourney o Stable Diffusion, at itataas ito ng Meshy-1 sa isang 3D na modelo. Ang tampok na Image to 3D ay nagsisiguro ng malakas na kontrol sa output, na lumilikha ng tunay na 3D na representasyon ng iyong 2D input, na paborito ng mga unang gumagamit para sa paglikha ng karakter.

Eksena ni Samuel, CG artist sa Tokyo, Meshy early Adoptor. Lahat ng karakter ay nilikha gamit ang Meshy-1 Image to 3D at pagkatapos ay inanimate gamit ang Mixamo.

Paano pumili ng angkop na mga imahe? Mas mainam ang mga front views (na may camera na nakaposisyon direkta sa harap ng karakter) at malinis na background.

Mga halimbawa ng imahe para sa mas magagandang resulta

Retexture models gamit ang Text to Texture. Gamit ang aming battle-tested Text to Texture mode, madali kang makakalikha o makakapagpalit ng mga texture ng umiiral na mga modelo, lalo na ang mga nilikha ng AI.

Beyond the Horizon

Meshy sa 3D generative AI

Ang aming layunin ay itatag ang Meshy bilang pangunahing plataporma sa 3D GenAI. Habang ang Meshy-1 ay isang makabuluhang hakbang pasulong, hindi ito ang huling kabanata. Sa katunayan, ang teknolohikal na pag-unlad ng GenAI para sa 3D ay nahuhuli kumpara sa GenAI para sa teksto o mga imahe. Ito ay dahil ang 3D ay nagdadala ng mas maraming dimensyon at kumplikado. Kaya't nangangailangan ng oras para sa mga 3D GenAI na produkto na talagang makamit ang kalidad ng produksyon.

Bukod sa pag-optimize ng mga output ng Meshy-1, sinusuri namin ang mga sumusunod na landas para sa aming roadmap ng produkto, na ginagabayan ng aming feedback ng gumagamit at pag-aaral,

Pinahusay na kalidad ng mesh. Ang kasalukuyang limitasyon ng generative AI, tulad ng mataas na polycounts (karaniwang 100K+), mahina na kalidad ng UV unwrapping, at ang kakulangan ng quad faces, ay naglimita sa kakayahan nito sa pagbuo ng mga production-ready asset. Ang pagtugon sa mga limitasyong ito ay mahalaga, lalo na't isinaalang-alang ang kagustuhan ng industriya para sa quad faces sa animation at mababang polycount na mga modelo para sa mobile gaming.

Conversational iterations. Habang ang mga gumagamit ay lumalayo sa tradisyunal na 3D modeling software tulad ng Maya at 3Ds Max, nais nila ng mas mataas na kontrol sa mga AI-generated na output. Mahalaga na bigyan ng kapangyarihan ang mga gumagamit sa pamamagitan ng iterative refinement capabilities, na kahawig ng ChatGPT-style multi-round interactions.

Pinahusay na kontrol. Halimbawa, nais ng mga gumagamit na lumikha ng mga 3D na modelo sa pamamagitan ng pagbuo ng mga ito mula sa maraming 2D na perspektibo, tulad ng harap, gilid, at likod na mga view. Para sa image to 3D, naniniwala kami na ang multi-view generation ay isang mahalagang direksyon na dapat tahakin.

Mga output na may pagkakapare-pareho sa estilo. Ang pagkakapare-pareho sa stylistic rendering ay isang paulit-ulit na kahilingan ng gumagamit, na binibigyang-diin ang pangangailangan para sa mga modelo na sumunod sa isang itinalagang visual na tema. Sa wakas, isang taos-pusong pasasalamat at papuri sa buong Meshy AI team. Ang kasalukuyang tagumpay natin ay patunay ng walang pagod na dedikasyon at pagsisikap ng lahat. Habang tumitingin tayo sa hinaharap, ang abot-tanaw ay puno ng pag-asa, at wala akong duda na magpapatuloy tayong mag-innovate at mag-excel nang sama-sama. Manatiling nakatuon, dahil malapit na nating ilunsad ang isang bagay na mas kahanga-hanga!

[1]Bago simulan ang Meshy journey, natapos ko ang aking Ph.D. sa CG & AI sa MIT, na nag-ambag sa pananaliksik na nailathala sa mga kilalang kumperensya tulad ng SIGGRAPH at ICLR. Matapos tapusin ang aking doctoral studies sa loob ng 3.5 taon, ginugol ko ang sumunod na 2.5 taon bilang isang startup founder, na nagpapahintulot sa akin na i-bridge ang aking akademikong kaalaman sa praktikal na aspeto ng pagbuo ng mga produktong pang-real-world, habang patuloy na natututo at lumalago sa dynamic na larangang ito.

[2]Bakit kami? Ang Meshy team ay binubuo ng mga eksperto mula sa mga kilalang institusyon at kumpanya tulad ng MIT, Harvard, NVIDIA, Microsoft, Google, at Meta, na may malalim na kaalaman sa computer graphics, AI, GPUs, differentiable programming, at cloud computing. Dati na kaming nakabuo ng mga produktong nakatuon sa developer at user na tinanggap ng aming user base. Ang mga karanasang ito ay nagbibigay ng matibay na pundasyon para sa paglikha ng isang 3D generative AI product.

[3]Nag-launch kami ng tool na tinatawag na Meshy Texturer noong Marso 2023, ngunit ngayon narito na ang Meshy-1 na may upgraded Text to Texture. Maaari mong ipares ang Meshy Texturer sa aming Text to 3D at Image to 3D modes, na nagpapahintulot sa iyo na i-fine-tune ang mga texture sa AI-generated outputs.

[4]Data derived in a lab setting. During periods of high server load, wait times may exceed one minute.

About the Author

Dr. Ethan (Yuanming) Hu is a co-founder and serves as the CEO of Meshy. He obtained his Ph.D. in computer graphics from MIT CSAIL in 2021. His Ph.D. research on differentiable GPU programming languages earned him an honorable mention for the SIGGRAPH 2022 Outstanding Doctoral Dissertation Award. In 2021, Ethan co-founded Meshy, a company focused on CG software. He's currently focused on building Meshy AI, a world-leading platform in 3D GenAI.

Meshy is a global startup headquartered in San Jose, CA.

Was this post useful?

Buksan ang mas mabilis na 3D workflow.

Baguhin ang iyong proseso ng disenyo gamit ang Meshy. Subukan ito ngayon at makita ang iyong katalinuhan na magkaroon ng buhay nang walang anumang pagod!