Meshy-1: Gere Modelos 3D com IA em Apenas um Minuto

Nossa visão é capacitar todos a materializar suas imaginações em 3D. É por isso que criamos o Meshy-1, uma IA generativa rápida para 3D, capacitando criadores de conteúdo a transformar texto e imagens em modelos 3D cativantes em menos de um minuto.

Neste blog, estamos animados para revelar a história por trás do Meshy-1 e suas capacidades[]. Prepare-se para se surpreender!

Por que a GenAI para 3D é importante (e difícil)?

O aumento do conteúdo interativo em 3D, especialmente nas indústrias de jogos, filmes e XR, elevou a demanda por modelos 3D. Criadores experientes enfrentam longos tempos de produção, enquanto criadores casuais lutam com ferramentas complexas como Maya ou Blender. Essa lacuna, ampliada por barreiras de custo e complexidade, exige uma solução.

Agora é o momento crucial. Com o lançamento do Vision Pro da Apple e a introdução do Quest 3 pela Meta, juntamente com o rápido progresso da tecnologia de IA generativa e um mercado de jogos em expansão, a expectativa coletiva por uma IA generativa 3D inovadora é palpável e pronta para se concretizar.

Nesta era emocionante de IA generativa, inúmeros produtos poderosos estão surgindo em diferentes modalidades. Por exemplo, vemos o ChatGPT para texto, o Midjourney para imagens e o Runway para vídeos.

Embora possa parecer lógico presumir que a geração 3D seja o próximo passo, intrigantemente, não há um líder definitivo nesse campo, principalmente porque a receita para criar um produto fácil de usar ainda não foi descoberta. Por que isso acontece?

Minha jornada tanto na academia quanto na indústria [1] oferece uma visão sobre as razões por trás disso.

Desafio 1: O equilíbrio entre qualidade e velocidade. Atualmente, existem duas abordagens predominantes no domínio da GenAI 3D:

Elevação 2D: Elevar modelos generativos 2D (como o Stable Diffusion) para 3D, utilizando técnicas de otimização iterativa aplicadas a estruturas como NeRFs. Esses métodos usam muitos dados 2D e podem criar vários modelos 3D de boa qualidade, mas é lento e pode levar horas, mesmo em GPUs rápidas como a RTX 3080.
Difusão 3D: Esta abordagem reduz significativamente o tempo de geração para menos de 1 minuto por modelo. Como não há muitos dados de treinamento 3D disponíveis, os modelos feitos dessa forma geralmente carecem de boa qualidade.

Os métodos atuais são ou muito lentos ou carecem da qualidade desejada, impedindo o desenvolvimento de um produto eficaz. Meshy visa ser rápido e de alta qualidade.

É por isso que não há muitos produtos de GenAI 3D por aí. Usar difusão 3D resulta em baixa qualidade, enquanto a elevação 2D leva a longos tempos de espera para os usuários e altos custos de servidor. Nossa equipe trabalhou arduamente para combinar os benefícios das duas abordagens e superar o equilíbrio entre qualidade e velocidade, criando um produto que permite aos usuários transformar texto/imagens em bons modelos 3D em menos de um minuto.

Desafio 2: O abismo entre inovações acadêmicas e necessidades dos usuários. Um produto centrado no usuário transcende meros algoritmos e pesos de redes neurais; ele necessita de interfaces de usuário intuitivas e integrações perfeitas com ferramentas prevalentes como Unity e Blender. Além disso, deve oferecer contagens de polígonos gerenciáveis adequadas para jogos móveis e fornecer controle eficaz de conteúdo/estilo para materializar autenticamente as ideias dos usuários. Embora a transformação em produto não seja ciência de foguetes, ela requer insights profundos sobre o produto e um entendimento profundo da indústria de CG para se desenvolver. [2]

Meshy-1: GenAI 3D Rápido e Excepcional

Como mencionado anteriormente, se o processo de geração levar horas, torna-se desafiador criar um produto que escale para até centenas de usuários. Portanto, como criador, é urgente resolver primeiro o problema da velocidade.

Apresentando o Meshy-1, uma IA generativa 3D rápida, capacitando criadores de conteúdo a transformar texto e imagens em modelos 3D cativantes em menos de um minuto. O Meshy-1 possui três modos fáceis de usar:

Texto para 3D: Palavras entram, modelos 3D saem
Imagem para 3D: Imagens fornecidas, modelos 3D produzidos
Texto para Textura: Texturize seus modelos com descrições de texto simples [3]

Todos os três modos funcionam rapidamente e fornecem resultados em menos de 60 segundos.

Uma cena totalmente gerada por IA. Cada modelo nesta cena é gerado usando o Meshy-1 Texto para 3D.

Construído sobre uma base comum do Meshy-1, os três modos compartilham recursos comuns que anteriormente não estavam disponíveis em produtos existentes:

30x mais rápido. Produtos existentes podem deixar os usuários esperando por horas, e acreditamos que isso é inaceitável. O Meshy-1 revoluciona esse processo ao entregar resultados em menos de um minuto[4]. Isso não só melhora a experiência do usuário e a produtividade, mas a notável eficiência do Meshy-1 também nos permite reduzir significativamente o custo por geração para o usuário.

Amigável ao fluxo de trabalho. Garantir que os modelos 3D estejam prontos para uso em aplicativos subsequentes é crítico. Suportamos formatos de saída como glb, usdz e fbx. Estamos também lançando um plugin para Unity na próxima semana, com plugins para Blender e UE chegando posteriormente. Estamos também planejando adicionar uma opção para controle de contagem de polígonos, que permite reduzir a contagem de polígonos no aplicativo web.

Texturas de alta qualidade. O Meshy-1 oferece um avanço na qualidade das texturas.

Resolução 4K. A resolução é importante, e as texturas do Meshy-1 são nitidamente nítidas.
Canais PBR. A Renderização Baseada Fisicamente (PBR) tornou-se essencial em jogos e filmes, e o Meshy-1 gera mapas metálicos, de rugosidade e normais para realismo físico.
Suporte a múltiplos materiais para Texto para Textura. Quando você está gerando texturas para um modelo 3D existente, é comum que seu modelo tenha múltiplos conjuntos de UVs e múltiplos grupos de mapas de textura. Nosso modo de texto para textura suporta bem esses casos.

Controle de estilo. Nos modos Texto para 3D e Texto para Textura do Meshy-1, você pode selecionar entre uma variedade de estilos artísticos para sua geração, incluindo Realista, Cartoon, Anime, Quadrinhos e mais. Isso proporciona um controle substancial sobre o estilo artístico, além do que os prompts textuais sozinhos poderiam permitir.

Como Usar?

O Meshy-1 está prontamente acessível tanto em nosso aplicativo web quanto no Discord. Embora ofereça funcionalidades semelhantes em ambas as plataformas, há características distintas a serem observadas:

Discord oferece gerações ilimitadas gratuitas, embora suas criações sejam visíveis publicamente no canal de geração.
O Aplicativo Web concede 20 gerações gratuitas diárias e adiciona capacidades adicionais como enfileiramento de tarefas, canais PBR, controle de estilo, compartilhamento de links e gerenciamento do seu espaço de geração.

Os recursos mais recentes de Texto para Textura e Imagem para 3D estão prontamente utilizáveis tanto no Discord quanto no aplicativo web. Você pode encontrar o atualizado Texto para 3D no Discord hoje, e ele estará disponível no aplicativo web em algumas semanas. Então, como usar esses recursos no mundo real? Através dos primeiros adotantes, encontramos padrões para geração 3D eficaz: use Texto para 3D para adereços (arte ambiental) e Imagem para 3D para personagens.

Texto para 3D para adereços. Simplesmente insira um prompt de texto e deixe o Meshy-1 criar modelos de acordo com sua descrição, ideal para gerar ativos ambientais ou "adereços" em jogos. Garanta um estilo consistente usando nossa opção de estilo.

Cena criada por RenderMan, artista sênior de UE baseado em Nova York, com tudo gerado usando Meshy-1 Texto para 3D.

Imagem para 3D para personagens. Utilize uma imagem de vista frontal, incluindo aquelas do Midjourney ou Stable Diffusion, e o Meshy-1 a elevará para um modelo 3D. O recurso Imagem para 3D garante um forte controle de saída, criando uma representação 3D genuína do seu input 2D, tornando-se um favorito entre os primeiros usuários para criação de personagens.

Cena por Samuel, artista CG em Tóquio, adotante inicial do Meshy. Todos os personagens são gerados usando Meshy-1 Imagem para 3D e depois animados usando Mixamo.

Como selecionar imagens adequadas? Prefira vistas frontais (com a câmera posicionada diretamente em frente ao personagem) e um fundo limpo.

Retexturizar modelos usando Texto para Textura. Usando nosso modo Texto para Textura testado em batalha, você pode facilmente criar ou substituir texturas de modelos existentes, especialmente aqueles gerados por IA.

Além do Horizonte

Nosso objetivo é estabelecer o Meshy como a principal plataforma em GenAI 3D. Embora o Meshy-1 marque um avanço significativo, está longe de ser o capítulo final. Na verdade, o avanço tecnológico do GenAI para 3D está atrás do GenAI para texto ou imagens. Isso ocorre porque o 3D introduz mais dimensões e complexidades. Portanto, leva tempo para que os produtos GenAI 3D realmente atinjam a qualidade de produção.

Além de otimizar as saídas do Meshy-1, estamos explorando as seguintes avenidas para nosso roteiro de produto, guiados pelo feedback dos usuários e aprendizado,

Melhoria na qualidade da malha. As limitações atuais da IA generativa, como contagens de polígonos altas (geralmente 100K+), baixa qualidade de mapeamento UV e a falta de faces em quad, têm restringido sua capacidade de gerar ativos prontos para produção. Abordar essas restrições é vital, especialmente considerando a preferência da indústria por faces em quad na animação e modelos de baixa contagem de polígonos para jogos móveis.

Iterações conversacionais. À medida que os usuários se afastam do software tradicional de modelagem 3D como Maya e 3Ds Max, eles desejam maior controle sobre as saídas geradas por IA. É útil capacitar os usuários com capacidades de refinamento iterativo, lembrando interações multi-rodadas no estilo ChatGPT.

Controle aprimorado. Por exemplo, os usuários desejam criar modelos 3D gerando-os a partir de múltiplas perspectivas 2D, como vistas frontal, lateral e traseira. Para imagem para 3D, acreditamos que a geração multi-visão é uma direção importante a seguir.

Saídas com consistência de estilo. A consistência na renderização estilística é uma demanda recorrente dos usuários, enfatizando a necessidade de os modelos aderirem a um tema visual designado. Finalmente, um sincero agradecimento e parabéns a toda a equipe da Meshy AI. Nosso sucesso atual é um testemunho do compromisso e esforços inabaláveis de todos. Ao olharmos para o futuro, o horizonte é promissor, e não tenho dúvidas de que juntos continuaremos a inovar e a nos destacar. Mantenham-se engajados, pois estamos prestes a revelar algo ainda mais notável!

[1]Antes de embarcar na jornada da Meshy, concluí meu Ph.D. em CG & AI no MIT, contribuindo para pesquisas publicadas em conferências renomadas como SIGGRAPH e ICLR. Após concluir meus estudos de doutorado em 3,5 anos, passei os 2,5 anos subsequentes como fundador de uma startup, permitindo-me conectar meu conhecimento acadêmico com os aspectos práticos de construir produtos do mundo real, tudo isso enquanto continuo a aprender e crescer neste campo dinâmico.

[2]Por que nós? A equipe da Meshy é composta por especialistas de instituições e empresas renomadas como MIT, Harvard, NVIDIA, Microsoft, Google e Meta, com profundo conhecimento em gráficos computacionais, IA, GPUs, programação diferenciável e computação em nuvem. Anteriormente, desenvolvemos produtos centrados em desenvolvedores e usuários, bem recebidos por nossa base de usuários. Essas experiências fornecem uma base sólida para criar um produto de IA generativa 3D.

[3]Lançamos uma ferramenta chamada Meshy Texturer em março de 2023, mas agora o Meshy-1 está aqui com um Text to Texture aprimorado. Você pode emparelhar o Meshy Texturer com nossos modos Text to 3D e Image to 3D, permitindo que você ajuste as texturas nos resultados gerados pela IA.

[4]Dados derivados em um ambiente de laboratório. Durante períodos de alta carga no servidor, os tempos de espera podem exceder um minuto.

Experimente o Meshy gratuitamente

Por que a GenAI para 3D é importante (e difícil)?

Meshy-1: GenAI 3D Rápido e Excepcional

Como Usar?

Além do Horizonte

Sobre o autor

Experimente o Meshy gratuitamente

Postagens relacionadas

Meshy-4: Quebrando Barreiras

Meshy 3: Esculturas, PBR e Imagem para 3D

Apresentando o Meshy-2

Desbloqueie um fluxo de trabalho 3D mais rápido.