La nostra visione è di dare a tutti il potere di materializzare le loro immaginazioni 3D. Ecco perché abbiamo creato Meshy-1, un'IA generativa veloce per il 3D, che consente ai creatori di contenuti di trasformare testo e immagini in modelli 3D accattivanti in meno di un minuto.
In questo blog, siamo entusiasti di svelare la storia dietro Meshy-1 e le sue capacità[]. Preparatevi a rimanere stupiti!
Perché GenAI per il 3D è importante (e difficile)?
L'aumento dei contenuti interattivi 3D, specialmente nei settori dei giochi, del cinema e dell'XR, ha fatto crescere la domanda di modelli 3D. I creatori esperti affrontano tempi di produzione lunghi, mentre i creatori occasionali si trovano in difficoltà con strumenti complessi come Maya o Blender. Questo divario, amplificato dalle barriere di costo e complessità, richiede una soluzione.
Ora è il momento cruciale. Con la presentazione di Vision Pro di Apple e Meta che introduce il Quest 3, insieme alla rapida progressione della tecnologia AI generativa e un mercato dei giochi in espansione, l'anticipazione collettiva per un'IA generativa 3D rivoluzionaria è palpabile e pronta per essere realizzata.
In questa era entusiasmante dell'AI generativa, stanno emergendo numerosi prodotti potenti attraverso diverse modalità. Ad esempio, vediamo ChatGPT per il testo, Midjourney per le immagini e Runway per i video.
Mentre può sembrare logico presumere che la generazione 3D sia il prossimo passo, curiosamente, non c'è un leader definitivo in questo ambito, principalmente perché la ricetta per creare un prodotto facile da usare rimane sconosciuta. Perché è così?
Il mio percorso sia nell'accademia che nell'industria [1] offre una lente sui motivi dietro a ciò.
Sfida 1: Il compromesso tra qualità e velocità. Attualmente, ci sono due approcci predominanti nel regno del 3D GenAI:
- 2D Lifting: Elevare i modelli generativi 2D (come Stable Diffusion) al 3D, utilizzando tecniche di ottimizzazione iterative applicate a strutture come i NeRF. Questi metodi utilizzano molti dati 2D e possono creare vari modelli 3D di buona qualità, ma sono lenti e possono richiedere ore anche su GPU veloci come la RTX 3080.
- 3D Diffusion: Questo approccio riduce significativamente il tempo di generazione a meno di 1 minuto per modello. Poiché non ci sono molti dati di addestramento 3D disponibili, i modelli creati in questo modo spesso mancano di buona qualità.
I metodi attuali sono o troppo lenti o mancano della qualità desiderata, ostacolando lo sviluppo di un prodotto efficace. Meshy mira a essere sia veloce che di alta qualità.
Ecco perché non ci sono molti prodotti 3D GenAI in circolazione. Utilizzare la diffusione 3D risulta in bassa qualità, mentre il 2D lifting porta a lunghi tempi di attesa per gli utenti e alti costi dei server. Il nostro team ha lavorato duramente per combinare i benefici dei due approcci e superare il compromesso tra qualità e velocità, creando un prodotto che consente agli utenti di trasformare testo/immagini in buoni modelli 3D in meno di un minuto.
Sfida 2: Il divario tra innovazioni accademiche e bisogni degli utenti. Un prodotto incentrato sull'utente trascende i meri algoritmi e i pesi delle reti neurali; richiede interfacce utente intuitive e integrazioni senza soluzione di continuità con strumenti diffusi come Unity e Blender. Inoltre, deve offrire conteggi di poligoni gestibili adatti al gaming mobile e fornire un controllo efficace del contenuto/stile per materializzare autenticamente le idee degli utenti. Anche se la realizzazione del prodotto non è scienza missilistica, richiede approfondimenti profondi sul prodotto e una comprensione profonda dell'industria CG per essere sviluppata. [2]
Meshy-1: GenAI 3D Veloce e Superbo
Come affermato in precedenza, se il processo di generazione dura ore, diventa difficile creare un prodotto che possa scalare anche solo a centinaia di utenti. Quindi, come creatore, è urgente risolvere prima il problema della velocità.
Presentiamo Meshy-1, un'IA generativa 3D veloce, che consente ai creatori di contenuti di trasformare testo e immagini in affascinanti modelli 3D in meno di un minuto. Meshy-1 ha tre modalità facili da usare:
- Testo in 3D: Parole in ingresso, modelli 3D in uscita
- Immagine in 3D: Immagini fornite, modelli 3D prodotti
- Testo in Texture: Texturizza i tuoi modelli con semplici descrizioni testuali [3]
Tutte e tre le modalità funzionano velocemente e ti danno risultati in meno di 60 secondi.
Una scena completamente generata dall'IA. Ogni modello in questa scena è generato utilizzando Meshy-1 Testo in 3D.Basandosi su una comune base Meshy-1, le tre modalità condividono caratteristiche comuni che in precedenza non erano disponibili nei prodotti esistenti:
30 volte più veloce. I prodotti esistenti possono lasciare gli utenti in attesa per ore, e crediamo che ciò sia inaccettabile. Meshy-1 rivoluziona questo processo fornendo risultati in meno di un minuto[4]. Non solo questo migliora l'esperienza utente e la produttività, ma l'efficienza straordinaria di Meshy-1 ci consente anche di ridurre significativamente il costo per generazione lato utente.
Compatibile con il flusso di lavoro. Assicurarsi che i modelli 3D siano pronti per l'uso in applicazioni a valle è fondamentale. Supportiamo formati di output come glb, usdz e fbx. Stiamo anche lanciando un plugin per Unity la prossima settimana, con i plugin per Blender e UE in arrivo più tardi. Stiamo anche pianificando di aggiungere un'opzione per il controllo del numero di poligoni, che ti permette di ridurre il numero di poligoni nell'app web.
Texture di alta qualità. Meshy-1 offre un'innovazione nella qualità delle texture.
- Risoluzione 4K. La risoluzione è importante, e le texture di Meshy-1 sono nitidamente definite.
- Canali PBR. Il rendering basato fisicamente (PBR) è diventato fondamentale nei giochi e nei film, e Meshy-1 produce mappe metalliche, di rugosità e normali per un realismo fisico.
- Supporto per materiali multipli per Testo in Texture. Quando generi texture per un modello 3D esistente, spesso il tuo modello ha più set di UV e più gruppi di mappe texture. La nostra modalità testo in texture supporta bene tali casi.
Controllo dello stile. Nelle modalità Testo in 3D e Testo in Texture di Meshy-1, puoi selezionare tra una varietà di stili artistici per la tua generazione, inclusi Realistico, Cartoon, Anime, Fumetto e altro. Questo ti fornisce un controllo sostanziale sullo stile artistico, oltre a quanto potrebbero consentire i soli prompt testuali.
Come Usarlo?
Meshy-1 è facilmente accessibile sia sulla nostra app web che su Discord. Pur offrendo funzionalità simili su entrambe le piattaforme, ci sono caratteristiche distintive da notare:
- Discord offre generazioni illimitate gratuite, anche se le tue creazioni sono visibili pubblicamente sul canale di generazione.
- L'App Web concede 20 generazioni gratuite al giorno e aggiunge capacità aggiuntive come la coda dei compiti, i canali PBR, il controllo dello stile, la condivisione dei link e la gestione del tuo spazio di lavoro di generazione.
Le ultime funzionalità Testo in Texture e Immagine in 3D sono facilmente utilizzabili sia su Discord che sull'app web. Puoi trovare l'aggiornamento Testo in 3D su Discord oggi, e sarà disponibile sull'app web tra poche settimane. Quindi, come utilizzare queste funzionalità nel mondo reale? Attraverso i primi utilizzatori abbiamo trovato schemi per una generazione 3D efficace: utilizzare Text to 3D per oggetti di scena (arte ambientale) e Image to 3D per personaggi.
Text to 3D per oggetti di scena. Basta inserire un prompt di testo e lasciare che Meshy-1 crei modelli in base alla tua descrizione, ideale per generare risorse ambientali o "oggetti di scena" nei giochi. Assicurati uno stile coerente utilizzando la nostra opzione di stile.
Scena creata da RenderMan, artista senior di UE con sede a New York, con tutto generato utilizzando Meshy-1 Text to 3D.Image to 3D per personaggi. Utilizza un'immagine frontale, comprese quelle da Midjourney o Stable Diffusion, e Meshy-1 la trasformerà in un modello 3D. La funzione Image to 3D garantisce un forte controllo sull'output, creando una rappresentazione 3D genuina del tuo input 2D, diventando un favorito tra i primi utenti per la creazione di personaggi.
Scena di Samuel, artista CG a Tokyo, primo utilizzatore di Meshy. Tutti i personaggi sono generati utilizzando Meshy-1 Image to 3D e poi animati usando Mixamo.Come selezionare immagini adatte? Preferisci viste frontali (con la fotocamera posizionata direttamente di fronte al personaggio) e uno sfondo pulito.
Ritexturizzare i modelli usando Text to Texture. Utilizzando la nostra modalità Text to Texture collaudata, puoi facilmente creare o sostituire le texture di modelli esistenti, specialmente quelli generati dall'AI.
Oltre l'Orizzonte
Il nostro obiettivo è stabilire Meshy come la piattaforma principale nella GenAI 3D. Sebbene Meshy-1 rappresenti un passo avanti significativo, non è affatto il capitolo finale. Infatti, l'avanzamento tecnologico della GenAI per il 3D è in ritardo rispetto a quello per il testo o le immagini. Questo perché il 3D introduce più dimensioni e complessità. Pertanto, ci vuole tempo perché i prodotti GenAI 3D raggiungano veramente la qualità di produzione.
Oltre a ottimizzare gli output di Meshy-1, stiamo esplorando le seguenti strade per la nostra roadmap del prodotto, guidati dal feedback degli utenti e dall'apprendimento,
Miglioramento della qualità della mesh. Le attuali limitazioni dell'AI generativa, come alti conteggi di poligoni (solitamente 100K+), scarsa qualità di unwrapping UV e la mancanza di facce quad, hanno limitato la sua capacità di generare risorse pronte per la produzione. Affrontare questi vincoli è vitale, soprattutto considerando la preferenza dell'industria per le facce quad nell'animazione e i modelli a basso conteggio di poligoni per i giochi mobili.
Iterazioni conversazionali. Man mano che gli utenti si allontanano dai software di modellazione 3D tradizionali come Maya e 3Ds Max, desiderano un maggiore controllo sugli output generati dall'AI. È utile dare agli utenti capacità di raffinamento iterativo, simili alle interazioni multi-round in stile ChatGPT.
Controllo migliorato. Ad esempio, gli utenti desiderano creare modelli 3D generandoli da più prospettive 2D, come viste frontali, laterali e posteriori. Per l'immagine in 3D, crediamo che la generazione multi-vista sia una direzione importante da seguire.
Output con coerenza stilistica. La coerenza nel rendering stilistico è una richiesta ricorrente degli utenti, sottolineando la necessità che i modelli aderiscano a un tema visivo designato. Infine, un sincero apprezzamento e complimenti a tutto il team di Meshy AI. Il nostro successo attuale è una testimonianza dell'impegno e degli sforzi incrollabili di tutti. Guardando avanti, l'orizzonte è promettente e non ho dubbi che insieme continueremo a innovare ed eccellere. Rimanete coinvolti, poiché siamo sull'orlo di svelare qualcosa di ancora più straordinario!
[1]Prima di intraprendere il viaggio con Meshy, ho completato il mio dottorato in CG & AI al MIT, contribuendo a ricerche pubblicate in conferenze rinomate come SIGGRAPH e ICLR. Dopo aver terminato i miei studi di dottorato in 3,5 anni, ho trascorso i successivi 2,5 anni come fondatore di una startup, permettendomi di collegare le mie conoscenze accademiche con gli aspetti pratici della costruzione di prodotti reali, continuando al contempo a imparare e crescere in questo campo dinamico.
[2]Perché noi? Il team di Meshy è composto da esperti provenienti da istituzioni e aziende prestigiose come MIT, Harvard, NVIDIA, Microsoft, Google e Meta, con una profonda conoscenza in computer grafica, AI, GPU, programmazione differenziabile e cloud computing. Abbiamo precedentemente costruito prodotti centrati su sviluppatori e utenti accolti dalla nostra base di utenti. Queste esperienze forniscono una solida base per creare un prodotto di AI generativa 3D.
[3]Abbiamo lanciato uno strumento chiamato Meshy Texturer a marzo 2023, ma ora Meshy-1 è qui con un Text to Texture aggiornato. Puoi abbinare Meshy Texturer con le nostre modalità Text to 3D e Image to 3D, permettendoti di affinare le texture sui risultati generati dall'AI.
[4]Dati derivati in un ambiente di laboratorio. Durante i periodi di elevato carico del server, i tempi di attesa possono superare un minuto.