ОБЪЯВЛЕНИЯ

Meshy-1: Создавайте 3D модели с помощью ИИ всего за минуту

Наше видение заключается в том, чтобы дать каждому возможность воплотить свои 3D-воображения в реальность. Именно поэтому мы создали Meshy-1, быструю генеративную AI для 3D, которая дает возможность создателям контента преобразовывать текст и изображения в захватывающие 3D-модели всего за минуту. В этом блоге мы с радостью представляем историю создания Meshy-1 и его возможности. Приготовьтесь быть пораженными!

Ethan
Опубликовано: 19 октября 2023 г.

Наше видение заключается в том, чтобы дать возможность каждому воплотить свои 3D-воображения в реальность. Именно поэтому мы создали Meshy-1, быструю генеративную AI для 3D, которая позволяет создателям контента преобразовывать текст и изображения в захватывающие 3D-модели менее чем за минуту.

В этом блоге мы рады представить историю создания Meshy-1 и его возможности[]. Готовьтесь быть пораженными!

Почему GenAI для 3D важен (и сложен)?

Рост 3D-интерактивного контента, особенно в игровой, киноиндустрии и XR, вызвал всплеск спроса на 3D-модели. Экспертам требуется много времени на производство, в то время как обычные создатели сталкиваются с трудностями при использовании сложных инструментов, таких как Maya или Blender. Этот разрыв, усугубленный барьерами стоимости и сложности, требует решения.

Сейчас — это ключевой момент. С появлением Apple Vision Pro и Meta, представляющей Quest 3, в сочетании с быстрым развитием генеративных AI технологий и растущим рынком игр, коллективное ожидание прорывной 3D генеративной AI ощутимо и готово к реализации.

Различные модальности генеративных AI продуктов, от текста, изображения до видео, и, возможно, до 3D?

В эту захватывающую эпоху генеративного AI появляются многочисленные мощные продукты в различных модальностях. Например, мы видим ChatGPT для текста, Midjourney для изображений и Runway для видео.

Хотя может показаться логичным предположить, что генерация 3D является следующим шагом, интересно, что в этой сфере нет явного лидера, главным образом потому, что рецепт создания простого в использовании продукта остается неоткрытым. Почему это так?

Мой путь через академию и индустрию [1] дает представление о причинах этого.

Проблема 1: Компромисс между качеством и скоростью. В настоящее время существуют два основных подхода в области 3D GenAI:

  • 2D Lifting: Поднятие 2D генеративных моделей (таких как Stable Diffusion) до 3D, используя итеративные методы оптимизации, применяемые к структурам, таким как NeRFs. Эти методы используют много 2D данных и могут создавать различные качественные 3D модели, но это медленно и может занять часы даже на быстрых GPU, таких как RTX 3080.
  • 3D Diffusion: Этот подход значительно сокращает время генерации до менее чем 1 минуты на модель. Из-за недостатка 3D обучающих данных модели, созданные таким образом, часто не обладают хорошим качеством.

Компромисс между качеством и скоростьюТекущие методы либо слишком медленные, либо не обладают желаемым качеством, что мешает разработке эффективного продукта. Meshy стремится быть как быстрым, так и качественным.

Вот почему существует так мало продуктов 3D GenAI. Использование 3D диффузии приводит к низкому качеству, в то время как 2D lifting приводит к долгому ожиданию пользователей и высоким затратам на серверы. Наша команда усердно работала, чтобы объединить преимущества обоих подходов и преодолеть компромисс между качеством и скоростью, создавая продукт, который позволяет пользователям превращать текст/изображения в качественные 3D модели менее чем за минуту.

Разрыв между исследованиями и потребностями пользователей

Проблема 2: Разрыв между академическими инновациями и потребностями пользователей. Ориентированный на пользователя продукт выходит за рамки простых алгоритмов и весов нейронных сетей; он требует интуитивно понятных пользовательских интерфейсов и бесшовной интеграции с популярными инструментами, такими как Unity и Blender. Более того, он должен предлагать управляемые полигоны, подходящие для мобильных игр, и обеспечивать эффективный контроль контента/стиля для подлинного воплощения идей пользователей. Хотя создание продукта — это не ракетостроение, оно требует глубоких знаний о продукте и глубокого понимания индустрии CG для разработки. [2]

Meshy-1: 3D GenAI Быстрый и Превосходный

Как уже было сказано, если процесс генерации занимает часы, становится сложно создать продукт, который может масштабироваться даже до сотен пользователей. Поэтому для создателя важно в первую очередь решить проблему скорости.

Meshy feature bento grid

Представляем Meshy-1, быстрый 3D генеративный ИИ, позволяющий создателям контента преобразовывать текст и изображения в захватывающие 3D модели менее чем за минуту. У Meshy-1 есть три простых в использовании режима:

  1. Текст в 3D: Слова на входе, 3D модели на выходе
  2. Изображение в 3D: Предоставлены картинки, созданы 3D модели
  3. Текст в текстуру: Текстурируйте свои модели с помощью простых текстовых описаний [3]

Все три режима работают быстро и дают результаты менее чем за 60 секунд.

Полностью сгенерированная ИИ сцена. Каждая модель в этой сцене создана с использованием Meshy-1 Text to 3D.

Основываясь на общей платформе Meshy-1, три режима имеют общие функции, которые ранее не были доступны в существующих продуктах:

В 30 раз быстрее. Существующие продукты могут заставить пользователей ждать часами, и мы считаем это неприемлемым. Meshy-1 революционизирует этот процесс, предоставляя результаты менее чем за минуту[4]. Это не только улучшает пользовательский опыт и производительность, но и позволяет значительно снизить стоимость генерации для пользователя.

Дружественный к рабочему процессу. Убедиться, что 3D модели готовы к использованию в последующих приложениях, критически важно. Мы поддерживаем форматы вывода, такие как glb, usdz и fbx. На следующей неделе мы запускаем плагин для Unity, а позже появятся плагины для Blender и UE. Мы также планируем добавить опцию контроля количества полигонов, которая позволит уменьшить количество полигонов в веб-приложении.

Meshy unity plugin screenshot

Высококачественные текстуры. Meshy-1 обеспечивает прорыв в качестве текстур.

  • Разрешение 4K. Разрешение имеет значение, и текстуры Meshy-1 четкие и резкие.
  • Каналы PBR. Физически обоснованный рендеринг (PBR) стал важным в играх и фильмах, и Meshy-1 выводит металлические, шероховатые и нормальные карты для физического реализма.
  • Поддержка нескольких материалов для Text to Texture. Когда вы генерируете текстуры для существующей 3D модели, часто бывает, что ваша модель имеет несколько наборов UV и несколько групп карт текстур. Наш режим текст в текстуру хорошо поддерживает такие случаи.

Контроль стиля. В режимах Text to 3D и Text to Texture Meshy-1 вы можете выбрать из множества художественных стилей для вашей генерации, включая Реалистичный, Мультяшный, Аниме, Комикс и другие. Это предоставляет вам значительный контроль над художественным стилем, выходящим за рамки того, что могут позволить только текстовые подсказки.

Как использовать?

Meshy-1 доступен как в нашем веб-приложении, так и в Discord. Хотя функциональность на платформах схожа, есть некоторые особенности, на которые стоит обратить внимание:

  • Discord предоставляет неограниченное количество бесплатных генераций, хотя ваши творения будут публично видны в канале генерации.
  • Веб-приложение предоставляет 20 бесплатных генераций в день и добавляет дополнительные возможности, такие как очередь задач, каналы PBR, контроль стиля, обмен ссылками и управление рабочим пространством генерации.

Последние функции Text to Texture и Image to 3D доступны как в Discord, так и в веб-приложении. Вы можете найти обновленный Text to 3D в Discord сегодня, и он будет доступен в веб-приложении через несколько недель. Как использовать эти функции в реальном мире? Через ранних пользователей мы обнаружили эффективные шаблоны для генерации 3D: используйте Text to 3D для реквизита (искусство окружающей среды) и Image to 3D для персонажей.

Text to 3D для реквизита. Просто введите текстовый запрос и позвольте Meshy-1 создать модели в соответствии с вашим описанием, идеально подходящие для генерации окружения или "реквизита" в играх. Обеспечьте единый стиль, используя нашу опцию стиля.

Сцена создана RenderMan, старшим UE художником из Нью-Йорка, все сгенерировано с использованием Meshy-1 Text to 3D.

Image to 3D для персонажей. Используйте изображение с фронтальным видом, включая те, которые получены из Midjourney или Stable Diffusion, и Meshy-1 преобразует его в 3D модель. Функция Image to 3D обеспечивает сильный контроль над выходными данными, создавая подлинное 3D представление вашего 2D ввода, что делает ее фаворитом среди ранних пользователей для создания персонажей.

Сцена от Samuel, CG художника в Токио, раннего пользователя Meshy. Все персонажи сгенерированы с использованием Meshy-1 Image to 3D и затем анимированы с использованием Mixamo.

Как выбрать подходящие изображения? Предпочтение отдается фронтальным видам (с камерой, расположенной прямо перед персонажем) и чистому фону.

Примеры изображений для лучших результатов

Перетекстурирование моделей с использованием Text to Texture. Используя наш проверенный режим Text to Texture, вы можете легко создать или заменить текстуры существующих моделей, особенно тех, которые сгенерированы ИИ.

За горизонтом

Meshy в 3D генеративном ИИ

Наша цель — установить Meshy как ведущую платформу в 3D GenAI. Хотя Meshy-1 является значительным шагом вперед, это далеко не последняя глава. На самом деле, технологическое развитие GenAI для 3D отстает от GenAI для текста или изображений. Это связано с тем, что 3D вводит больше измерений и сложностей. Поэтому требуется время, чтобы продукты 3D GenAI действительно достигли качества производства.

Помимо оптимизации выходных данных Meshy-1, мы исследуем следующие направления для нашей дорожной карты продукта, руководствуясь отзывами пользователей и обучением,

Улучшенное качество сетки. Текущие ограничения генеративного ИИ, такие как высокие полигоны (обычно 100K+), плохое качество развёртки UV и отсутствие четырехугольных граней, ограничивают его возможности в создании готовых к производству активов. Решение этих ограничений жизненно важно, особенно учитывая предпочтение индустрии к четырехугольным граням в анимации и моделям с низким количеством полигонов для мобильных игр.

Итерации в диалоговом режиме. Поскольку пользователи отходят от традиционного программного обеспечения для 3D моделирования, такого как Maya и 3Ds Max, они желают большего контроля над выходными данными, сгенерированными ИИ. Полезно предоставить пользователям возможности для итеративного уточнения, напоминающие многораундовые взаимодействия в стиле ChatGPT.

Улучшенный контроль. Например, пользователи хотят создавать 3D модели, генерируя их из нескольких 2D перспектив, таких как вид спереди, сбоку и сзади. Для Image to 3D мы считаем, что генерация с нескольких видов является важным направлением.

Выходные данные с консистентностью стиля. Последовательность в стилистическом рендеринге является повторяющимся требованием пользователей, подчеркивающим необходимость в моделях, которые соответствуют заданной визуальной теме. Наконец, искренняя благодарность и похвала всей команде Meshy AI. Наш текущий успех является свидетельством непоколебимой приверженности и усилий каждого. Глядя в будущее, горизонт обещает быть многообещающим, и я не сомневаюсь, что вместе мы продолжим инновации и достижения. Оставайтесь вовлеченными, так как мы на пороге открытия чего-то еще более замечательного!

[1]До начала пути с Meshy я завершил свою докторскую степень в области CG и AI в MIT, внес вклад в исследования, опубликованные на известных конференциях, таких как SIGGRAPH и ICLR. После завершения докторских исследований за 3,5 года, я провел последующие 2,5 года в качестве основателя стартапа, что позволило мне соединить свои академические знания с практическими аспектами создания реальных продуктов, продолжая учиться и расти в этой динамичной области.

[2]Почему мы? Команда Meshy состоит из экспертов из уважаемых учреждений и компаний, таких как MIT, Гарвард, NVIDIA, Microsoft, Google и Meta, обладающих глубокими знаниями в области компьютерной графики, AI, GPU, дифференцируемого программирования и облачных вычислений. Мы ранее создавали продукты, ориентированные на разработчиков и пользователей, которые были хорошо восприняты нашей пользовательской базой. Этот опыт обеспечивает прочную основу для создания 3D генеративного AI продукта.

[3]Мы запустили инструмент под названием Meshy Texturer в марте 2023 года, но теперь Meshy-1 здесь с обновленным Text to Texture. Вы можете сочетать Meshy Texturer с нашими режимами Text to 3D и Image to 3D, что позволяет вам точно настраивать текстуры на AI-сгенерированных выходах.

[4]Данные получены в лабораторных условиях. В периоды высокой нагрузки на сервер время ожидания может превышать одну минуту.

Об авторе

Dr. Ethan (Yuanming) Hu is a co-founder and serves as the CEO of Meshy. He obtained his Ph.D. in computer graphics from MIT CSAIL in 2021. His Ph.D. research on differentiable GPU programming languages earned him an honorable mention for the SIGGRAPH 2022 Outstanding Doctoral Dissertation Award. In 2021, Ethan co-founded Meshy, a company focused on CG software. He's currently focused on building Meshy AI, a world-leading platform in 3D GenAI.

Meshy is a global startup headquartered in San Jose, CA.

Был ли этот пост полезен?

Откройте для себя более быстрый рабочий процесс 3D.

Преобразуйте свой процесс проектирования с помощью Meshy. Попробуйте прямо сейчас и увидите, как ваше творчество оживает без особых усилий!