Meshy-1: Gere Modelos 3D com IA em Apenas um Minuto

A nossa visão é capacitar todos a materializar as suas imaginações em 3D. É por isso que criámos o Meshy-1, uma IA generativa rápida para 3D, que capacita criadores de conteúdo a transformar texto e imagens em modelos 3D cativantes em menos de um minuto.

Neste blog, estamos entusiasmados por revelar a história por detrás do Meshy-1 e as suas capacidades[]. Prepare-se para se surpreender!

Porque é que a GenAI para 3D é importante (e difícil)?

O aumento do conteúdo interativo em 3D, especialmente nas indústrias de jogos, cinema e XR, fez disparar a procura por modelos 3D. Criadores experientes enfrentam longos tempos de produção, enquanto criadores casuais lutam com ferramentas complexas como o Maya ou o Blender. Esta lacuna, amplificada por barreiras de custo e complexidade, exige uma solução.

Agora é o momento crucial. Com a revelação do Vision Pro da Apple e a Meta a introduzir o Quest 3, juntamente com o rápido progresso da tecnologia de IA generativa e um mercado de jogos em expansão, a antecipação coletiva por uma IA generativa 3D revolucionária é palpável e pronta para se concretizar.

Nesta era emocionante da IA generativa, numerosos produtos poderosos estão a emergir em diferentes modalidades. Por exemplo, vemos o ChatGPT para texto, o Midjourney para imagens, e o Runway para vídeos.

Embora possa parecer lógico presumir que a geração 3D é o próximo passo, intrigantemente, não há um líder definitivo nesta esfera, principalmente porque a receita para criar um produto fácil de usar ainda não foi descoberta. Por que é que isto acontece?

A minha jornada tanto na academia como na indústria [1] oferece uma perspetiva sobre as razões por detrás disto.

Desafio 1: O compromisso entre qualidade e velocidade. Atualmente, existem duas abordagens predominantes no domínio da GenAI 3D:

Elevação 2D: Elevar modelos generativos 2D (como o Stable Diffusion) para 3D, utilizando técnicas de otimização iterativa aplicadas a estruturas como NeRFs. Estes métodos utilizam muitos dados 2D e podem criar vários modelos 3D de boa qualidade, mas são lentos e podem demorar horas, mesmo em GPUs rápidas como a RTX 3080.
Difusão 3D: Esta abordagem reduz significativamente o tempo de geração para menos de 1 minuto por modelo. Como não há muitos dados de treino 3D disponíveis, os modelos criados desta forma muitas vezes carecem de boa qualidade.

Os métodos atuais são ou demasiado lentos ou carecem da qualidade desejada, dificultando o desenvolvimento de um produto eficaz. Meshy visa ser rápido e de alta qualidade.

É por isso que não há muitos produtos de GenAI 3D por aí. Usar difusão 3D resulta em baixa qualidade, enquanto a elevação 2D leva a longos tempos de espera para os utilizadores e altos custos de servidor. A nossa equipa trabalhou arduamente para combinar os benefícios das duas abordagens e superar o compromisso entre qualidade e velocidade, criando um produto que permite aos utilizadores transformar texto/imagens em bons modelos 3D em menos de um minuto.

Desafio 2: O fosso entre inovações académicas e as necessidades dos utilizadores. Um produto centrado no utilizador transcende meros algoritmos e pesos de redes neurais; requer interfaces de utilizador intuitivas e integrações perfeitas com ferramentas prevalentes como Unity e Blender. Além disso, deve oferecer contagens de polígonos geríveis adequadas para jogos móveis e fornecer controlo eficaz de conteúdo/estilo para materializar autenticamente as ideias dos utilizadores. Embora a produtização não seja ciência de foguetes, requer profundos insights de produto e uma compreensão profunda da indústria de CG para se desenvolver. [2]

Meshy-1: GenAI 3D Rápido e Excepcional

Como mencionado anteriormente, se o processo de geração durar horas, torna-se um desafio criar um produto que escale para até centenas de utilizadores. Portanto, como criador, é urgente resolver primeiro a questão da velocidade.

Apresentamos o Meshy-1, uma IA generativa 3D rápida, que capacita criadores de conteúdo a transformar texto e imagens em modelos 3D cativantes em menos de um minuto. O Meshy-1 possui três modos fáceis de usar:

Texto para 3D: Palavras entram, modelos 3D saem
Imagem para 3D: Imagens fornecidas, modelos 3D produzidos
Texto para Textura: Texturize os seus modelos com descrições de texto simples [3]

Todos os três modos funcionam rapidamente e fornecem resultados em menos de 60 segundos.

Uma cena totalmente gerada por IA. Cada modelo nesta cena é gerado usando o Meshy-1 Texto para 3D.

Baseando-se numa fundação comum do Meshy-1, os três modos partilham características comuns que anteriormente não estavam disponíveis em produtos existentes:

30x mais rápido. Produtos existentes podem deixar os utilizadores à espera durante horas, e acreditamos que isso é inaceitável. O Meshy-1 revoluciona este processo ao entregar resultados em menos de um minuto[4]. Não só isso melhora a experiência e produtividade do utilizador, como a notável eficiência do Meshy-1 também nos permite reduzir significativamente o custo por geração do lado do utilizador.

Amigável ao fluxo de trabalho. Garantir que os modelos 3D estão prontos para uso em aplicações subsequentes é crítico. Suportamos formatos de saída como glb, usdz e fbx. Estamos também a lançar um plugin para Unity na próxima semana, com plugins para Blender e UE a serem lançados posteriormente. Estamos também a planear adicionar uma opção para controlo de polígono, que permite reduzir a contagem de polígonos na aplicação web.

Texturas de alta qualidade. O Meshy-1 oferece um avanço na qualidade das texturas.

Resolução 4K. A resolução importa, e as texturas do Meshy-1 são nitidamente nítidas.
Canais PBR. A Renderização Baseada em Física (PBR) tornou-se essencial em jogos e filmes, e o Meshy-1 produz mapas metálicos, de rugosidade e normais para realismo físico.
Suporte a múltiplos materiais para Texto para Textura. Quando está a gerar texturas para um modelo 3D existente, é frequente que o seu modelo tenha múltiplos conjuntos de UVs e múltiplos grupos de mapas de textura. O nosso modo de texto para textura suporta bem esses casos.

Controlo de estilo. Nos modos Texto para 3D e Texto para Textura do Meshy-1, pode selecionar entre uma variedade de estilos artísticos para a sua geração, incluindo Realista, Cartoon, Anime, Comic, e mais. Isso proporciona um controlo substancial sobre o estilo artístico, além do que os prompts textuais sozinhos poderiam permitir.

Como Usá-lo?

O Meshy-1 está prontamente acessível tanto na nossa aplicação web quanto no Discord. Embora ofereça funcionalidades semelhantes em ambas as plataformas, há características distintas a considerar:

Discord oferece gerações ilimitadas gratuitas, embora as suas criações sejam visíveis publicamente no canal de geração.
A Aplicação Web concede 20 gerações gratuitas diárias e adiciona capacidades adicionais como fila de tarefas, canais PBR, controlo de estilo, partilha de links e gestão do seu espaço de trabalho de geração.

As mais recentes funcionalidades de Texto para Textura e Imagem para 3D estão prontamente utilizáveis tanto no Discord quanto na aplicação web. Pode encontrar o atualizado Texto para 3D no Discord hoje, e estará disponível na aplicação web em poucas semanas. Então, como utilizar estas funcionalidades no mundo real? Através dos primeiros utilizadores, encontrámos padrões eficazes para a geração de 3D: usar Texto para 3D para adereços (arte ambiental) e Imagem para 3D para personagens.

Texto para 3D para adereços. Basta introduzir um prompt de texto e deixar que o Meshy-1 crie modelos de acordo com a sua descrição, ideal para gerar ativos ambientais ou "adereços" em jogos. Assegure um estilo consistente utilizando a nossa opção de estilo.

Cena criada por RenderMan, artista sénior de UE baseado em Nova Iorque, com tudo gerado usando Meshy-1 Texto para 3D.

Imagem para 3D para personagens. Utilize uma imagem de vista frontal, incluindo aquelas do Midjourney ou Stable Diffusion, e o Meshy-1 irá elevá-la para um modelo 3D. A funcionalidade Imagem para 3D garante um forte controlo de saída, criando uma representação 3D genuína do seu input 2D, tornando-se uma favorita entre os primeiros utilizadores para a criação de personagens.

Cena por Samuel, artista CG em Tóquio, primeiro utilizador do Meshy. Todas as personagens são geradas usando Meshy-1 Imagem para 3D e depois animadas usando Mixamo.

Como selecionar imagens adequadas? Prefira vistas frontais (com a câmara posicionada diretamente em frente à personagem) e um fundo limpo.

Retexturizar modelos usando Texto para Textura. Utilizando o nosso modo de Texto para Textura testado em batalha, pode facilmente criar ou substituir texturas de modelos existentes, especialmente aqueles gerados por IA.

Para Além do Horizonte

O nosso objetivo é estabelecer o Meshy como a plataforma principal em GenAI 3D. Embora o Meshy-1 marque um avanço significativo, não é de forma alguma o capítulo final. Na verdade, o avanço tecnológico do GenAI para 3D está atrás do GenAI para texto ou imagens. Isto porque o 3D introduz mais dimensões e complexidades. Por isso, leva tempo para que os produtos GenAI 3D realmente atinjam a qualidade de produção.

Além de otimizar as saídas do Meshy-1, estamos a explorar as seguintes vias para o nosso roadmap de produto, guiados pelo feedback dos nossos utilizadores e aprendizagem,

Melhoria da qualidade da malha. As limitações atuais da IA generativa, como contagens de polígonos elevadas (geralmente 100K+), má qualidade de desdobramento UV e a falta de faces quadradas, têm restringido a sua capacidade de gerar ativos prontos para produção. Abordar estas limitações é vital, especialmente considerando a preferência da indústria por faces quadradas na animação e modelos de baixa contagem de polígonos para jogos móveis.

Iterações conversacionais. À medida que os utilizadores se afastam do software tradicional de modelagem 3D como Maya e 3Ds Max, desejam um maior controlo sobre as saídas geradas por IA. É útil capacitar os utilizadores com capacidades de refinamento iterativo, reminiscentes de interações multi-rodada ao estilo ChatGPT.

Controlo melhorado. Por exemplo, os utilizadores desejam criar modelos 3D gerando-os a partir de múltiplas perspetivas 2D, como vistas frontais, laterais e traseiras. Para imagem para 3D, acreditamos que a geração multi-vista é uma direção importante a seguir.

Saídas com consistência de estilo. A consistência na renderização estilística é uma exigência recorrente dos utilizadores, enfatizando a necessidade de os modelos aderirem a um tema visual designado. Finalmente, um sincero agradecimento e parabéns a toda a equipa da Meshy AI. O nosso sucesso atual é um testemunho do compromisso e esforço inabaláveis de todos. Ao olharmos para o futuro, o horizonte é promissor, e não tenho dúvidas de que juntos continuaremos a inovar e a sobressair. Mantenham-se envolvidos, pois estamos prestes a revelar algo ainda mais notável!

[1]Antes de embarcar na jornada da Meshy, concluí o meu doutoramento em CG & AI no MIT, contribuindo para investigações publicadas em conferências de renome como SIGGRAPH e ICLR. Após terminar os meus estudos de doutoramento em 3,5 anos, passei os 2,5 anos subsequentes como fundador de uma startup, permitindo-me ligar o meu conhecimento académico aos aspetos práticos de construir produtos do mundo real, tudo enquanto continuo a aprender e a crescer neste campo dinâmico.

[2]Porquê nós? A equipa da Meshy é composta por especialistas de instituições e empresas conceituadas como MIT, Harvard, NVIDIA, Microsoft, Google e Meta, com profundo conhecimento em gráficos computacionais, IA, GPUs, programação diferenciável e computação em nuvem. Anteriormente, construímos produtos centrados em desenvolvedores e utilizadores que foram bem recebidos pela nossa base de utilizadores. Estas experiências fornecem uma base sólida para criar um produto de IA generativa 3D.

[3]Lançámos uma ferramenta chamada Meshy Texturer em março de 2023, mas agora o Meshy-1 está aqui com um Text to Texture melhorado. Pode emparelhar o Meshy Texturer com os nossos modos Text to 3D e Image to 3D, permitindo-lhe afinar as texturas nos resultados gerados pela IA.

[4]Dados derivados num ambiente de laboratório. Durante períodos de alta carga no servidor, os tempos de espera podem exceder um minuto.

Experimente o Meshy gratuitamente

Porque é que a GenAI para 3D é importante (e difícil)?

Meshy-1: GenAI 3D Rápido e Excepcional

Como Usá-lo?

Para Além do Horizonte

Sobre o autor

Experimente o Meshy gratuitamente

Postagens relacionadas

Meshy-4: Quebrar Barreiras

Meshy 3: Esculturas, PBR e Imagem para 3D

Apresentando o Meshy-2

Desbloqueie um fluxo de trabalho 3D mais rápido.