Nuestra visión es empoderar a todos para materializar sus imaginaciones en 3D. Por eso creamos Meshy-1, una IA generativa rápida para 3D, que permite a los creadores de contenido transformar texto e imágenes en modelos 3D cautivadores en menos de un minuto.
En este blog, estamos emocionados de revelar la historia detrás de Meshy-1 y sus capacidades[]. ¡Prepárate para sorprenderte!
¿Por qué es importante (y difícil) la GenAI para 3D?
El aumento del contenido interactivo en 3D, especialmente en las industrias de juegos, cine y XR, ha incrementado la demanda de modelos 3D. Los creadores expertos enfrentan largos tiempos de producción, mientras que los creadores casuales luchan con herramientas complejas como Maya o Blender. Esta brecha, amplificada por las barreras de costo y complejidad, requiere una solución.
Ahora es el momento crucial. Con la presentación del Vision Pro de Apple y Meta introduciendo el Quest 3, junto con el rápido avance de la tecnología de IA generativa y un mercado de juegos en auge, la anticipación colectiva por una IA generativa 3D revolucionaria es palpable y está lista para realizarse.
En esta emocionante era de la IA generativa, numerosos productos poderosos están emergiendo en diferentes modalidades. Por ejemplo, vemos ChatGPT para texto, Midjourney para imágenes y Runway para videos.
Aunque podría parecer lógico suponer que la generación 3D es el siguiente paso, intrigantemente, no hay un líder definitivo en este ámbito, principalmente porque la receta para crear un producto fácil de usar sigue sin descubrirse. ¿Por qué es este el caso?
Mi trayectoria tanto en la academia como en la industria [1] proporciona una perspectiva sobre las razones detrás de esto.
Desafío 1: La compensación entre calidad y velocidad. Actualmente, hay dos enfoques predominantes en el ámbito de la GenAI 3D:
- Elevación 2D: Elevar modelos generativos 2D (como Stable Diffusion) a 3D, utilizando técnicas de optimización iterativa aplicadas a estructuras como NeRFs. Estos métodos usan muchos datos 2D y pueden crear varios modelos 3D de buena calidad, pero son lentos y pueden tardar horas incluso en GPUs rápidas como la RTX 3080.
- Difusión 3D: Este enfoque reduce significativamente el tiempo de generación a menos de 1 minuto por modelo. Debido a que no hay muchos datos de entrenamiento 3D disponibles, los modelos creados de esta manera a menudo carecen de buena calidad.
Los métodos actuales son o demasiado lentos o carecen de la calidad deseada, obstaculizando el desarrollo de un producto efectivo. Meshy apunta a ser tanto rápido como de alta calidad.
Por eso no hay muchos productos de GenAI 3D disponibles. Usar difusión 3D resulta en baja calidad, mientras que la elevación 2D lleva a largos tiempos de espera para los usuarios y altos costos de servidor. Nuestro equipo trabajó arduamente para combinar los beneficios de ambos enfoques y superar la compensación entre calidad y velocidad, creando un producto que permite a los usuarios convertir texto/imágenes en buenos modelos 3D en menos de un minuto.
Desafío 2: La brecha entre las innovaciones académicas y las necesidades del usuario. Un producto centrado en el usuario trasciende los meros algoritmos y pesos de redes neuronales; requiere interfaces de usuario intuitivas e integraciones fluidas con herramientas prevalentes como Unity y Blender. Además, debe ofrecer conteos de polígonos manejables adecuados para juegos móviles y proporcionar un control efectivo de contenido/estilo para materializar auténticamente las ideas del usuario. Aunque la productización no es ciencia espacial, sí requiere profundos conocimientos de producto y una comprensión profunda de la industria CG para desarrollarse. [2]
Meshy-1: GenAI 3D Rápido y Sobresaliente
Como se mencionó anteriormente, si el proceso de generación se extiende por horas, se vuelve desafiante crear un producto que escale incluso a cientos de usuarios. Así que, como creador, es urgente resolver primero el problema de la velocidad.
Presentamos Meshy-1, una IA generativa 3D rápida, que permite a los creadores de contenido transformar texto e imágenes en modelos 3D cautivadores en menos de un minuto. Meshy-1 tiene tres modos fáciles de usar:
- Texto a 3D: Palabras dentro, modelos 3D fuera
- Imagen a 3D: Imágenes proporcionadas, modelos 3D producidos
- Texto a Textura: Texturiza tus modelos con descripciones de texto simples [3]
Los tres modos funcionan rápidamente y te dan resultados en menos de 60 segundos.
Una escena completamente generada por IA. Cada modelo en esta escena se genera usando Meshy-1 Texto a 3D.Construido sobre una base común de Meshy-1, los tres modos comparten características comunes que anteriormente no estaban disponibles en productos existentes:
30 veces más rápido. Los productos existentes pueden dejar a los usuarios esperando durante horas, y creemos que eso es inaceptable. Meshy-1 revoluciona este proceso al entregar resultados en menos de un minuto[4]. Esto no solo mejora la experiencia y productividad del usuario, sino que la notable eficiencia de Meshy-1 también nos permite reducir significativamente el costo por generación para el usuario.
Amigable con el flujo de trabajo. Asegurarse de que los modelos 3D estén listos para usar en aplicaciones posteriores es crítico. Soportamos formatos de salida como glb, usdz y fbx. También lanzaremos un plugin de Unity la próxima semana, con plugins para Blender y UE próximamente. También planeamos agregar una opción para el control del conteo de polígonos, que te permite reducir el conteo de polígonos en la aplicación web.
Texturas de alta calidad. Meshy-1 ofrece un avance en la calidad de las texturas.
- Resolución 4K. La resolución importa, y las texturas de Meshy-1 son nítidamente claras.
- Canales PBR. El Renderizado Basado en Física (PBR) se ha vuelto primordial en juegos y películas, y Meshy-1 produce mapas metálicos, de rugosidad y normales para realismo físico.
- Soporte de múltiples materiales para Texto a Textura. Cuando estás generando texturas para un modelo 3D existente, a menudo tu modelo tiene múltiples conjuntos de UVs y múltiples grupos de mapas de textura. Nuestro modo de texto a textura soporta bien estos casos.
Control de estilo. En los modos Texto a 3D y Texto a Textura de Meshy-1, puedes seleccionar entre una variedad de estilos artísticos para tu generación, incluyendo Realista, Caricatura, Anime, Cómic, y más. Esto te proporciona un control sustancial sobre el estilo artístico, más allá de lo que los prompts textuales por sí solos podrían permitir.
¿Cómo Usarlo?
Meshy-1 está fácilmente accesible tanto en nuestra aplicación web como en Discord. Aunque ofrece funcionalidades similares en ambas plataformas, hay características distintas a tener en cuenta:
- Discord ofrece generaciones ilimitadas gratuitas, aunque tus creaciones son visibles públicamente en el canal de generación.
- La Aplicación Web otorga 20 generaciones gratuitas diarias y añade capacidades adicionales como cola de tareas, canales PBR, control de estilo, compartir enlaces y gestión de tu espacio de trabajo de generación.
Las últimas características de Texto a Textura e Imagen a 3D están disponibles para usar tanto en Discord como en la aplicación web. Puedes encontrar el actualizado Texto a 3D en Discord hoy, y estará disponible en la aplicación web en unas pocas semanas. ¿Cómo utilizar estas funciones en el mundo real? A través de los primeros usuarios, hemos encontrado patrones para una generación 3D efectiva: usar Texto a 3D para accesorios (arte ambiental) e Imagen a 3D para personajes.
Texto a 3D para accesorios. Simplemente ingresa un texto y deja que Meshy-1 cree modelos según tu descripción, ideal para generar activos ambientales o "accesorios" en juegos. Asegura un estilo consistente usando nuestra opción de estilo.
Escena creada por RenderMan, artista senior de UE con sede en Nueva York, con todo generado usando Meshy-1 Texto a 3D.Imagen a 3D para personajes. Utiliza una imagen de vista frontal, incluidas aquellas de Midjourney o Stable Diffusion, y Meshy-1 la elevará a un modelo 3D. La función de Imagen a 3D asegura un fuerte control de salida, creando una representación 3D genuina de tu entrada 2D, convirtiéndose en la favorita entre los primeros usuarios para la creación de personajes.
Escena por Samuel, artista CG en Tokio, primer usuario de Meshy. Todos los personajes son generados usando Meshy-1 Imagen a 3D y luego animados usando Mixamo.¿Cómo seleccionar imágenes adecuadas? Prefiere vistas frontales (con la cámara posicionada directamente frente al personaje) y un fondo limpio.
Re-texturizar modelos usando Texto a Textura. Usando nuestro modo de Texto a Textura probado en batalla, puedes crear o reemplazar fácilmente texturas de modelos existentes, especialmente aquellos generados por IA.
Más allá del Horizonte
Nuestro objetivo es establecer a Meshy como la plataforma principal en GenAI 3D. Aunque Meshy-1 marca un avance significativo, no es de ninguna manera el capítulo final. De hecho, el avance tecnológico de GenAI para 3D está rezagado en comparación con GenAI para texto o imágenes. Esto se debe a que 3D introduce más dimensiones y complejidades. Por lo tanto, lleva tiempo para que los productos GenAI 3D realmente alcancen calidad de producción.
Además de optimizar las salidas de Meshy-1, estamos explorando las siguientes avenidas para nuestra hoja de ruta del producto, guiados por los comentarios de nuestros usuarios y el aprendizaje,
Mejora de la calidad de malla. Las limitaciones actuales de la IA generativa, como altos conteos de polígonos (generalmente 100K+), mala calidad de desempaquetado UV y la falta de caras cuadradas, han restringido su capacidad para generar activos listos para producción. Abordar estas limitaciones es vital, especialmente considerando la preferencia de la industria por caras cuadradas en animación y modelos de bajo conteo de polígonos para juegos móviles.
Iteraciones conversacionales. A medida que los usuarios se alejan del software de modelado 3D tradicional como Maya y 3Ds Max, desean un mayor control sobre las salidas generadas por IA. Es útil empoderar a los usuarios con capacidades de refinamiento iterativo, reminiscentes de interacciones de múltiples rondas al estilo de ChatGPT.
Control mejorado. Por ejemplo, los usuarios desean crear modelos 3D generándolos a partir de múltiples perspectivas 2D, como vistas frontal, lateral y trasera. Para imagen a 3D, creemos que la generación de múltiples vistas es una dirección importante a seguir.
Salidas con consistencia de estilo. La consistencia en el renderizado estilístico es una demanda recurrente de los usuarios, enfatizando la necesidad de que los modelos se adhieran a un tema visual designado. Finalmente, un sincero agradecimiento y felicitaciones a todo el equipo de Meshy AI. Nuestro éxito actual es un testimonio del compromiso y esfuerzo inquebrantable de todos. Al mirar hacia adelante, el horizonte es prometedor, y no tengo dudas de que juntos continuaremos innovando y sobresaliendo. Manténganse comprometidos, ¡ya que estamos a punto de revelar algo aún más notable!
[1]Antes de embarcarme en el viaje de Meshy, completé mi doctorado en CG & AI en MIT, contribuyendo a investigaciones publicadas en conferencias de renombre como SIGGRAPH e ICLR. Después de terminar mis estudios doctorales en 3.5 años, he pasado los siguientes 2.5 años como fundador de una startup, lo que me ha permitido conectar mi conocimiento académico con los aspectos prácticos de construir productos del mundo real, todo mientras continúo aprendiendo y creciendo en este campo dinámico.
[2]¿Por qué nosotros? El equipo de Meshy está compuesto por expertos de instituciones y empresas prestigiosas como MIT, Harvard, NVIDIA, Microsoft, Google y Meta, con un profundo conocimiento en gráficos por computadora, IA, GPUs, programación diferenciable y computación en la nube. Anteriormente hemos creado productos centrados en desarrolladores y usuarios que han sido bien recibidos por nuestra base de usuarios. Estas experiencias proporcionan una base sólida para crear un producto de IA generativa en 3D.
[3]Lanzamos una herramienta llamada Meshy Texturer en marzo de 2023, pero ahora Meshy-1 está aquí con un Text to Texture mejorado. Puedes emparejar Meshy Texturer con nuestros modos de Text to 3D e Image to 3D, lo que te permite ajustar las texturas en los resultados generados por la IA.
[4]Datos derivados en un entorno de laboratorio. Durante períodos de alta carga del servidor, los tiempos de espera pueden exceder un minuto.