titletitre} - Blog

Notre vision est de permettre à chacun de matérialiser ses imaginations en 3D. C'est pourquoi nous avons créé Meshy-1, une IA générative rapide pour la 3D, permettant aux créateurs de contenu de transformer du texte et des images en modèles 3D captivants en moins d'une minute.

Dans ce blog, nous sommes ravis de dévoiler l'histoire derrière Meshy-1 et ses capacités[]. Préparez-vous à être émerveillés !

Pourquoi GenAI pour la 3D est important (et difficile) ?

La montée en puissance du contenu interactif en 3D, en particulier dans les industries du jeu, du cinéma et de la XR, a fait exploser la demande de modèles 3D. Les créateurs experts font face à des temps de production longs, tandis que les créateurs occasionnels luttent avec des outils complexes comme Maya ou Blender. Cet écart, amplifié par les barrières de coût et de complexité, appelle une solution.

Maintenant est le moment crucial. Avec le dévoilement du Vision Pro d'Apple et de la Quest 3 de Meta, couplé à la progression rapide de la technologie de l'IA générative et à un marché du jeu en plein essor, l'anticipation collective pour une IA générative 3D révolutionnaire est palpable et prête à être réalisée.

Dans cette ère passionnante de l'IA générative, de nombreux produits puissants émergent à travers différentes modalités. Par exemple, nous voyons ChatGPT pour le texte, Midjourney pour les images, et Runway pour les vidéos.

Bien qu'il puisse sembler logique de présumer que la génération 3D soit la prochaine étape, il est intriguant de constater qu'il n'y a pas de leader définitif dans ce domaine, principalement parce que la recette pour créer un produit facile à utiliser reste à découvrir. Pourquoi en est-il ainsi ?

Mon parcours à la fois dans le milieu académique et industriel [1] offre un aperçu des raisons derrière cela.

Défi 1 : Le compromis entre qualité et rapidité. Actuellement, il existe deux approches prédominantes dans le domaine de la GenAI 3D :

Élévation 2D : Élever les modèles génératifs 2D (comme Stable Diffusion) à la 3D, en utilisant des techniques d'optimisation itérative appliquées à des structures comme les NeRFs. Ces méthodes utilisent beaucoup de données 2D et peuvent créer divers modèles 3D de bonne qualité, mais elles sont lentes et peuvent prendre des heures même sur des GPU rapides comme le RTX 3080.
Diffusion 3D : Cette approche réduit considérablement le temps de génération à moins d'une minute par modèle. Comme il n'y a pas beaucoup de données d'entraînement 3D disponibles, les modèles créés de cette manière manquent souvent de bonne qualité.

Les méthodes actuelles sont soit trop lentes, soit manquent de la qualité désirée, entravant le développement d'un produit efficace. Meshy vise à être à la fois rapide et de haute qualité.

C'est pourquoi il n'existe pas beaucoup de produits GenAI 3D. L'utilisation de la diffusion 3D entraîne une faible qualité, tandis que l'élévation 2D conduit à de longs temps d'attente pour les utilisateurs et à des coûts de serveur élevés. Notre équipe a travaillé dur pour combiner les avantages des deux approches et surmonter le compromis entre qualité et rapidité, créant un produit qui permet aux utilisateurs de transformer du texte/images en bons modèles 3D en moins d'une minute.

Défi 2 : Le fossé entre les innovations académiques et les besoins des utilisateurs. Un produit centré sur l'utilisateur transcende les simples algorithmes et poids de réseaux neuronaux ; il nécessite des interfaces utilisateur intuitives et des intégrations transparentes avec des outils répandus comme Unity et Blender. De plus, il doit offrir des polycomptes gérables adaptés au jeu mobile et fournir un contrôle efficace du contenu/style pour matérialiser authentiquement les idées des utilisateurs. Bien que la mise en produit ne soit pas de la science-fusée, elle nécessite des connaissances approfondies sur le produit et une compréhension profonde de l'industrie CG pour se développer. [2]

Meshy-1 : GenAI 3D Rapide et Superbe

Comme mentionné précédemment, si le processus de génération s'étend sur des heures, il devient difficile de créer un produit qui s'adapte même à des centaines d'utilisateurs. En tant que créateur, il est donc urgent de résoudre d'abord le problème de vitesse.

Présentation de Meshy-1, une IA générative 3D rapide, permettant aux créateurs de contenu de transformer texte et images en modèles 3D captivants en moins d'une minute. Meshy-1 propose trois modes faciles à utiliser :

Texte en 3D : Des mots en entrée, des modèles 3D en sortie
Image en 3D : Des images fournies, des modèles 3D produits
Texte en Texture : Texturez vos modèles avec de simples descriptions textuelles [3]

Les trois modes fonctionnent rapidement et vous donnent des résultats en moins de 60 secondes.

Une scène entièrement générée par IA. Chaque modèle de cette scène est généré en utilisant Meshy-1 Texte en 3D.

En s'appuyant sur une base commune Meshy-1, les trois modes partagent des fonctionnalités communes qui n'étaient pas disponibles dans les produits existants :

30 fois plus rapide. Les produits existants peuvent laisser les utilisateurs attendre pendant des heures, et nous pensons que c'est inacceptable. Meshy-1 révolutionne ce processus en fournissant des résultats en moins d'une minute[4]. Non seulement cela améliore l'expérience utilisateur et la productivité, mais l'efficacité remarquable de Meshy-1 nous permet également de réduire considérablement le coût par génération côté utilisateur.

Adapté au flux de travail. S'assurer que les modèles 3D sont prêts à être utilisés dans des applications en aval est essentiel. Nous prenons en charge des formats de sortie tels que glb, usdz et fbx. Nous lançons également un plugin Unity la semaine prochaine, avec des plugins Blender & UE à venir plus tard. Nous prévoyons également d'ajouter une option de contrôle du nombre de polygones, qui vous permet de réduire le nombre de polygones dans l'application web.

Textures de haute qualité. Meshy-1 offre une avancée dans la qualité des textures.

Résolution 4K. La résolution compte, et les textures Meshy-1 sont d'une netteté éclatante.
Canaux PBR. Le rendu basé sur la physique (PBR) est devenu primordial dans les jeux et les films, et Meshy-1 produit des cartes métalliques, de rugosité et normales pour un réalisme physique.
Prise en charge de matériaux multiples pour Texte en Texture. Lorsque vous générez des textures pour un modèle 3D existant, il est souvent le cas que votre modèle possède plusieurs ensembles d'UV et plusieurs groupes de cartes de textures. Notre mode texte en texture prend bien en charge ces cas.

Contrôle du style. Dans les modes Texte en 3D et Texte en Texture de Meshy-1, vous pouvez choisir parmi une variété de styles artistiques pour votre génération, y compris Réaliste, Dessin animé, Anime, Comic, et plus encore. Cela vous offre un contrôle substantiel sur le style artistique, au-delà de ce que les invites textuelles seules pourraient permettre.

Comment l'utiliser ?

Meshy-1 est facilement accessible à la fois sur notre application web et Discord. Tout en offrant des fonctionnalités similaires sur les deux plateformes, il y a des caractéristiques distinctes à noter :

Discord offre des générations gratuites illimitées, bien que vos créations soient visibles publiquement sur le canal de génération.
L'application Web accorde 20 générations gratuites par jour et ajoute des capacités supplémentaires telles que la mise en file d'attente des tâches, les canaux PBR, le contrôle du style, le partage de liens et la gestion de votre espace de génération.

Les dernières fonctionnalités Texte en Texture et Image en 3D sont facilement utilisables à la fois sur Discord et l'application web. Vous pouvez trouver la mise à jour Texte en 3D sur Discord aujourd'hui, et elle sera disponible sur l'application web dans quelques semaines. Alors, comment utiliser ces fonctionnalités dans le monde réel ? Grâce aux premiers utilisateurs, nous avons identifié des schémas pour une génération 3D efficace : utiliser le Texte vers 3D pour les accessoires (art environnemental) et l'Image vers 3D pour les personnages.

Texte vers 3D pour les accessoires. Entrez simplement une invite textuelle et laissez Meshy-1 créer des modèles selon votre description, idéal pour générer des actifs environnementaux ou des "accessoires" dans les jeux. Assurez-vous d'un style cohérent en utilisant notre option de style.

Scène créée par RenderMan, artiste senior UE basé à New York, avec tout généré en utilisant Meshy-1 Texte vers 3D.

Image vers 3D pour les personnages. Utilisez une image de vue frontale, y compris celles de Midjourney ou Stable Diffusion, et Meshy-1 l'élèvera en un modèle 3D. La fonctionnalité Image vers 3D assure un contrôle de sortie fort, créant une véritable représentation 3D de votre entrée 2D, en faisant un favori parmi les premiers utilisateurs pour la création de personnages.

Scène par Samuel, artiste CG à Tokyo, premier adoptant de Meshy. Tous les personnages sont générés en utilisant Meshy-1 Image vers 3D et ensuite animés avec Mixamo.

Comment sélectionner des images appropriées ? Préférez les vues frontales (avec la caméra positionnée directement en face du personnage) et un fond propre.

Retexturer les modèles en utilisant Texte vers Texture. En utilisant notre mode Texte vers Texture éprouvé, vous pouvez facilement créer ou remplacer les textures des modèles existants, en particulier ceux générés par l'IA.

Au-delà de l'Horizon

Notre objectif est d'établir Meshy comme la plateforme de référence dans la GenAI 3D. Bien que Meshy-1 représente un pas en avant significatif, ce n'est en aucun cas le chapitre final. En fait, l'avancement technologique de la GenAI pour la 3D est en retard par rapport à celui de la GenAI pour le texte ou les images. Cela est dû au fait que la 3D introduit plus de dimensions et de complexités. Il faut donc du temps pour que les produits GenAI 3D atteignent vraiment la qualité de production.

En plus d'optimiser les sorties de Meshy-1, nous explorons les voies suivantes pour notre feuille de route produit, guidés par les retours de nos utilisateurs et nos apprentissages,

Amélioration de la qualité des maillages. Les limitations actuelles de l'IA générative, telles que les polycomptes élevés (généralement 100K+), la mauvaise qualité de dépliage UV, et le manque de faces quadrilatères, ont limité sa capacité à générer des actifs prêts pour la production. Aborder ces contraintes est vital, surtout en considérant la préférence de l'industrie pour les faces quadrilatères dans l'animation et les modèles à faible polycompte pour les jeux mobiles.

Itérations conversationnelles. Alors que les utilisateurs s'éloignent des logiciels de modélisation 3D traditionnels comme Maya et 3Ds Max, ils souhaitent un contrôle accru sur les sorties générées par l'IA. Il est utile de donner aux utilisateurs la possibilité de raffiner de manière itérative, rappelant les interactions multi-tours de style ChatGPT.

Contrôle amélioré. Par exemple, les utilisateurs souhaitent créer des modèles 3D en les générant à partir de multiples perspectives 2D, telles que les vues de face, de côté et de dos. Pour l'image vers 3D, nous croyons que la génération multi-vues est une direction importante à suivre.

Sorties avec cohérence de style. La cohérence dans le rendu stylistique est une demande récurrente des utilisateurs, soulignant le besoin pour les modèles de respecter un thème visuel désigné. Enfin, une appréciation sincère et des félicitations à toute l'équipe de Meshy AI. Notre succès actuel est un témoignage de l'engagement et des efforts inébranlables de chacun. Alors que nous regardons vers l'avenir, l'horizon est prometteur, et je n'ai aucun doute qu'ensemble, nous continuerons à innover et à exceller. Restez engagés, car nous sommes sur le point de dévoiler quelque chose d'encore plus remarquable !

[1]Avant de me lancer dans l'aventure Meshy, j'ai terminé mon doctorat en CG & AI au MIT, contribuant à des recherches publiées lors de conférences renommées comme SIGGRAPH et ICLR. Après avoir terminé mes études doctorales en 3,5 ans, j'ai passé les 2,5 années suivantes en tant que fondateur de startup, me permettant de faire le lien entre mes connaissances académiques et les aspects pratiques de la création de produits du monde réel, tout en continuant à apprendre et à évoluer dans ce domaine dynamique.

[2]Pourquoi nous ? L'équipe Meshy est composée d'experts issus d'institutions et d'entreprises prestigieuses comme MIT, Harvard, NVIDIA, Microsoft, Google, et Meta, avec une connaissance approfondie en infographie, IA, GPU, programmation différentiable, et informatique en nuage. Nous avons précédemment construit des produits centrés sur les développeurs et les utilisateurs, bien reçus par notre base d'utilisateurs. Ces expériences fournissent une base solide pour créer un produit d'IA générative en 3D.

[3]Nous avons lancé un outil appelé Meshy Texturer en mars 2023, mais maintenant Meshy-1 est là avec un Text to Texture amélioré. Vous pouvez associer Meshy Texturer avec nos modes Text to 3D et Image to 3D, vous permettant d'affiner les textures sur les sorties générées par l'IA.

[4]Données dérivées dans un environnement de laboratoire. Pendant les périodes de forte charge serveur, les temps d'attente peuvent dépasser une minute.

Meshy-1 : Générez des modèles 3D avec l'IA en une minute seulement

Essayez Meshy gratuitement

Pourquoi GenAI pour la 3D est important (et difficile) ?

Meshy-1 : GenAI 3D Rapide et Superbe

Comment l'utiliser ?

Au-delà de l'Horizon

À propos de l'auteur

Essayez Meshy gratuitement

Articles connexes

Meshy-4 : Briser les frontières

Meshy 3 : Sculptures, PBR et Image en 3D

Présentation de Meshy-2

Débloquez un flux de travail 3D plus rapide.