ОГОЛОШЕННЯ

Meshy-1: Генеруйте 3D-моделі за допомогою AI всього за хвилину

Наше бачення полягає в тому, щоб дати можливість кожному втілити свої 3D-уявлення в життя. Саме тому ми створили Meshy-1, швидкий генеративний AI для 3D, який надає можливість творцям контенту перетворювати текст та зображення в захоплюючі 3D-моделі всього за менш ніж хвилину. У цьому блозі ми з радістю розкриваємо історію створення Meshy-1 та його можливості. Приготуйтеся бути враженими!

Ethan
Опубліковано: 19 жовтня 2023 р.

Наше бачення полягає в тому, щоб надати можливість кожному втілити свої 3D уявлення. Саме тому ми створили Meshy-1, швидкий генеративний AI для 3D, який надає можливість творцям контенту перетворювати текст та зображення в захоплюючі 3D моделі менш ніж за хвилину.

У цьому блозі ми раді представити історію створення Meshy-1 та його можливості[]. Приготуйтеся бути враженими!

Чому GenAI для 3D важливий (і складний)?

Зростання інтерактивного 3D контенту, особливо в ігровій, кінематографічній та XR індустріях, викликало підвищений попит на 3D моделі. Експертам-творцям доводиться стикатися з тривалими термінами виробництва, тоді як звичайні творці борються зі складними інструментами, такими як Maya або Blender. Цей розрив, посилений бар'єрами вартості та складності, вимагає рішення.

Зараз є вирішальний момент. З виходом на ринок Apple Vision Pro та Meta Quest 3, разом з швидким розвитком генеративних AI технологій та зростаючим ринком ігор, колективне очікування на революційний 3D генеративний AI є відчутним і готовим до реалізації.

Різні модальності генеративних AI продуктів, від тексту, зображення до відео, а можливо, і до 3D?

У цю захоплюючу епоху генеративного AI з'являються численні потужні продукти в різних модальностях. Наприклад, ми бачимо ChatGPT для тексту, Midjourney для зображень та Runway для відео.

Хоча може здатися логічним припустити, що 3D генерація є наступним кроком, цікаво, що в цій сфері немає явного лідера, головним чином тому, що рецепт створення легкого у використанні продукту залишається невідкритим. Чому так?

Моя подорож як в академічному середовищі, так і в індустрії [1] надає погляд на причини цього.

Виклик 1: Компроміс між якістю та швидкістю. На даний момент існує два основних підходи в області 3D GenAI:

  • 2D Ліфтинг: Піднесення 2D генеративних моделей (таких як Stable Diffusion) до 3D, використовуючи ітеративні методи оптимізації, застосовані до структур, таких як NeRFs. Ці методи використовують багато 2D даних і можуть створювати різні якісні 3D моделі, але це повільно і може займати години навіть на швидких GPU, таких як RTX 3080.
  • 3D Дифузія: Цей підхід значно скорочує час генерації до менше ніж 1 хвилини на модель. Оскільки доступно небагато 3D навчальних даних, моделі, створені таким чином, часто не мають хорошої якості.

Компроміс між якістю та швидкістюПоточні методи або занадто повільні, або не мають бажаної якості, що заважає розвитку ефективного продукту. Meshy прагне бути як швидким, так і високоякісним.

Саме тому на ринку немає багатьох 3D GenAI продуктів. Використання 3D дифузії призводить до низької якості, тоді як 2D ліфтинг викликає довгі часи очікування для користувачів та високі серверні витрати. Наша команда доклала зусиль, щоб об'єднати переваги двох підходів і подолати компроміс між якістю та швидкістю, створивши продукт, який дозволяє користувачам перетворювати текст/зображення в якісні 3D моделі менш ніж за хвилину.

Розрив між дослідженнями та потребами користувачів

Виклик 2: Розрив між академічними інноваціями та потребами користувачів. Продукт, орієнтований на користувача, виходить за межі простих алгоритмів і ваг нейронних мереж; він вимагає інтуїтивно зрозумілих інтерфейсів користувача та безшовної інтеграції з популярними інструментами, такими як Unity та Blender. Крім того, він повинен пропонувати керовані полігони, придатні для мобільних ігор, і забезпечувати ефективний контроль контенту/стилю для автентичної реалізації ідей користувачів. Хоча створення продукту не є ракетною наукою, воно вимагає глибокого розуміння продукту та глибокого розуміння індустрії комп'ютерної графіки для розробки. [2]

Meshy-1: 3D GenAI Зроблено Швидко та Чудово

Як було зазначено раніше, якщо процес генерації триває години, стає складно створити продукт, який може масштабуватися навіть для сотень користувачів. Тому для розробника важливо спочатку вирішити питання швидкості.

Meshy feature bento grid

Представляємо Meshy-1, швидкий 3D генеративний AI, що надає можливість творцям контенту перетворювати текст та зображення на захоплюючі 3D моделі за менш ніж хвилину. Meshy-1 має три прості у використанні режими:

  1. Текст у 3D: Слова на вході, 3D моделі на виході
  2. Зображення у 3D: Зображення надано, 3D моделі створено
  3. Текст у Текстуру: Текстуруйте свої моделі за допомогою простих текстових описів [3]

Усі три режими працюють швидко і дають результати менш ніж за 60 секунд.

Повністю AI-згенерована сцена. Кожна модель у цій сцені згенерована за допомогою Meshy-1 Текст у 3D.

На основі загальної платформи Meshy-1, три режими мають спільні функції, які раніше не були доступні в існуючих продуктах:

30 разів швидше. Існуючі продукти можуть змусити користувачів чекати годинами, і ми вважаємо, що це неприйнятно. Meshy-1 революціонізує цей процес, надаючи результати менш ніж за хвилину[4]. Це не тільки покращує користувацький досвід та продуктивність, але й дозволяє значно знизити вартість генерації для користувача.

Зручний для робочого процесу. Важливо, щоб 3D моделі були готові до використання в подальших додатках. Ми підтримуємо формати виводу, такі як glb, usdz та fbx. Наступного тижня ми запускаємо плагін для Unity, а плагіни для Blender та UE з'являться пізніше. Ми також плануємо додати опцію контролю кількості полігонів, яка дозволяє зменшити кількість полігонів у веб-додатку.

Meshy unity plugin screenshot

Високоякісні текстури. Meshy-1 забезпечує прорив у якості текстур.

  • 4K роздільна здатність. Роздільна здатність має значення, і текстури Meshy-1 є чіткими та різкими.
  • PBR канали. Фізично обґрунтоване рендеринг (PBR) став важливим у іграх та фільмах, і Meshy-1 виводить металеві, шорсткі та нормальні карти для фізичної реалістичності.
  • Підтримка кількох матеріалів для Текст у Текстуру. Коли ви генеруєте текстури для існуючої 3D моделі, часто ваша модель має кілька наборів UV та кілька груп текстурних карт. Наш режим текст у текстуру добре підтримує такі випадки.

Контроль стилю. У режимах Текст у 3D та Текст у Текстуру Meshy-1 ви можете вибрати з різноманітних художніх стилів для вашої генерації, включаючи Реалістичний, Мультяшний, Аніме, Комікс та інші. Це надає вам значний контроль над художнім стилем, що виходить за межі того, що можуть дозволити лише текстові підказки.

Як це використовувати?

Meshy-1 доступний як у нашому веб-додатку, так і на Discord. Хоча функціональність схожа на обох платформах, є деякі особливості, які варто зазначити:

  • Discord надає необмежену кількість безкоштовних генерацій, хоча ваші творіння будуть публічно видимі на каналі генерації.
  • Веб-додаток надає 20 безкоштовних генерацій щодня та додає додаткові можливості, такі як черга завдань, PBR канали, контроль стилю, обмін посиланнями та управління вашим робочим простором генерації.

Останні функції Текст у Текстуру та Зображення у 3D вже доступні як на Discord, так і у веб-додатку. Ви можете знайти оновлений Текст у 3D на Discord сьогодні, і він буде доступний у веб-додатку через кілька тижнів. Отже, як використовувати ці функції в реальному світі? Завдяки раннім користувачам ми виявили ефективні шаблони для генерації 3D: використовуйте Text to 3D для реквізиту (арт оточення) та Image to 3D для персонажів.

Text to 3D для реквізиту. Просто введіть текстовий запит і дозвольте Meshy-1 створити моделі відповідно до вашого опису, що ідеально підходить для генерації об'єктів оточення або "реквізиту" в іграх. Забезпечте узгодженість стилю, використовуючи наш параметр стилю.

Сцена створена RenderMan, старшим UE художником з Нью-Йорка, з усім, що згенеровано за допомогою Meshy-1 Text to 3D.

Image to 3D для персонажів. Використовуйте зображення з переднім видом, включаючи ті, що створені за допомогою Midjourney або Stable Diffusion, і Meshy-1 перетворить його в 3D модель. Функція Image to 3D забезпечує сильний контроль над виходом, створюючи справжнє 3D представлення вашого 2D вхідного зображення, що робить її улюбленою серед ранніх користувачів для створення персонажів.

Сцена від Samuel, CG художника з Токіо, раннього користувача Meshy. Усі персонажі згенеровані за допомогою Meshy-1 Image to 3D, а потім анімовані за допомогою Mixamo.

Як вибрати відповідні зображення? Віддавайте перевагу переднім видам (з камерою, розташованою прямо перед персонажем) та чистому фону.

Приклади зображень для кращих результатів

Перетекстурування моделей за допомогою Text to Texture. Використовуючи наш перевірений режим Text to Texture, ви можете легко створювати або замінювати текстури існуючих моделей, особливо тих, що згенеровані AI.

За горизонтом

Meshy в 3D генеративному AI

Наша мета — встановити Meshy як провідну платформу в 3D GenAI. Хоча Meshy-1 є значним кроком вперед, це аж ніяк не остання глава. Насправді, технологічний розвиток GenAI для 3D відстає від GenAI для тексту або зображень. Це тому, що 3D додає більше вимірів і складностей. Тому потрібно час, щоб продукти 3D GenAI дійсно досягли якості виробництва.

Крім оптимізації виходів Meshy-1, ми досліджуємо наступні напрями для нашої дорожньої карти продукту, керуючись відгуками користувачів і навчанням,

Покращена якість сітки. Поточні обмеження генеративного AI, такі як високі полігони (зазвичай 100K+), погана якість розгортки UV і відсутність чотирикутних граней, обмежили його можливості в генерації активів, готових до виробництва. Усунення цих обмежень є життєво важливим, особливо з урахуванням переваг індустрії до чотирикутних граней в анімації та моделей з низькою кількістю полігонів для мобільних ігор.

Розмовні ітерації. Оскільки користувачі відходять від традиційного програмного забезпечення для 3D моделювання, такого як Maya та 3Ds Max, вони бажають більшого контролю над виходами, згенерованими AI. Корисно наділити користувачів можливостями ітеративного вдосконалення, подібно до багатораундових взаємодій у стилі ChatGPT.

Покращений контроль. Наприклад, користувачі бажають створювати 3D моделі, генеруючи їх з декількох 2D перспектив, таких як передній, бічний і задній види. Для Image to 3D ми вважаємо, що генерація з кількох видів є важливим напрямком.

Виходи з узгодженістю стилю. Узгодженість у стилістичному рендерингу є повторюваним запитом користувачів, що підкреслює необхідність моделей дотримуватися визначеної візуальної теми. Нарешті, щире визнання та подяка всій команді Meshy AI. Наш нинішній успіх є свідченням непохитної відданості та зусиль кожного. Дивлячись у майбутнє, горизонт виглядає обнадійливо, і я не сумніваюся, що разом ми продовжимо впроваджувати інновації та досягати успіху. Залишайтеся залученими, адже ми на порозі відкриття чогось ще більш вражаючого!

[1]Перед тим, як розпочати подорож з Meshy, я завершив свій Ph.D. у CG & AI в MIT, зробивши внесок у дослідження, опубліковані на відомих конференціях, таких як SIGGRAPH та ICLR. Після завершення докторських студій за 3,5 роки, я провів наступні 2,5 роки як засновник стартапу, що дозволило мені поєднати мої академічні знання з практичними аспектами створення реальних продуктів, продовжуючи вчитися та зростати в цій динамічній галузі.

[2]Чому ми? Команда Meshy складається з експертів з престижних установ і компаній, таких як MIT, Гарвард, NVIDIA, Microsoft, Google та Meta, з глибокими знаннями в комп'ютерній графіці, AI, GPU, диференційованому програмуванні та хмарних обчисленнях. Ми раніше створювали продукти, орієнтовані на розробників та користувачів, які отримали визнання нашої бази користувачів. Цей досвід забезпечує міцну основу для створення 3D генеративного AI продукту.

[3]Ми запустили інструмент під назвою Meshy Texturer у березні 2023 року, але тепер Meshy-1 тут з оновленим Text to Texture. Ви можете поєднати Meshy Texturer з нашими режимами Text to 3D та Image to 3D, що дозволяє вам точно налаштовувати текстури на AI-згенерованих виходах.

[4]Дані отримані в лабораторних умовах. Під час періодів високого навантаження на сервер, час очікування може перевищувати одну хвилину.

Про автора

Dr. Ethan (Yuanming) Hu is a co-founder and serves as the CEO of Meshy. He obtained his Ph.D. in computer graphics from MIT CSAIL in 2021. His Ph.D. research on differentiable GPU programming languages earned him an honorable mention for the SIGGRAPH 2022 Outstanding Doctoral Dissertation Award. In 2021, Ethan co-founded Meshy, a company focused on CG software. He's currently focused on building Meshy AI, a world-leading platform in 3D GenAI.

Meshy is a global startup headquartered in San Jose, CA.

Чи був цей пост корисним?

Розблокуйте швидший 3D робочий процес.

Трансформуйте свій дизайнерський процес за допомогою Meshy. Спробуйте його зараз і побачите, як ваша творчість легко оживе!