PENGUMUMAN

Meshy-1: Hasilkan Model 3D dengan AI dalam Masa Satu Minit Sahaja

Visi kami adalah untuk memperkasakan semua orang agar dapat merealisasikan imaginasi 3D mereka. Itulah sebabnya kami membina Meshy-1, AI generatif pantas untuk 3D, yang memperkasakan pencipta kandungan untuk menukar teks dan imej kepada model 3D yang memukau dalam masa kurang daripada satu minit. Dalam blog ini, kami teruja untuk mendedahkan kisah di sebalik Meshy-1 dan keupayaannya. Bersedia untuk terpesona!

Ethan
ပို့စ်တင်သည်- ၂၀၂၃၊ အောက်တိုဘာ ၁၉

Visi kami adalah untuk memberdayakan semua orang agar dapat mewujudkan imaginasi 3D mereka. Itulah sebabnya kami membangun Meshy-1, AI generatif cepat untuk 3D, yang memberdayakan pencipta konten untuk mengubah teks dan gambar menjadi model 3D yang menawan dalam waktu kurang dari satu menit.

Dalam blog ini, kami dengan senang hati mengungkapkan cerita di balik Meshy-1 dan kemampuannya[]. Bersiaplah untuk terpesona!

Mengapa GenAI untuk 3D penting (dan sulit)?

Lonjakan konten interaktif 3D, terutama dalam industri permainan, film, dan XR, telah meningkatkan permintaan untuk model 3D. Pencipta ahli menghadapi waktu produksi yang panjang, sementara pencipta kasual kesulitan dengan alat yang kompleks seperti Maya atau Blender. Kesenjangan ini, diperburuk oleh hambatan biaya dan kompleksitas, memerlukan solusi.

Sekarang adalah momen penting. Dengan pengungkapan Apple Vision Pro dan Meta memperkenalkan Quest 3, ditambah dengan kemajuan pesat teknologi AI generatif dan pasar permainan yang berkembang pesat, antisipasi kolektif untuk AI generatif 3D yang revolusioner terasa nyata dan siap untuk diwujudkan.

Berbagai modalitas produk AI generatif, dari teks, gambar hingga video, dan mungkin ke 3D?

Dalam era AI generatif yang mendebarkan ini, banyak produk kuat muncul di berbagai modalitas. Misalnya, kita melihat ChatGPT untuk teks, Midjourney untuk gambar, dan Runway untuk video.

Meskipun tampaknya logis untuk menganggap generasi 3D sebagai langkah selanjutnya, menariknya, belum ada pemimpin definitif di bidang ini, terutama karena resep untuk membuat produk yang mudah digunakan belum ditemukan. Mengapa demikian?

Perjalanan saya melalui akademia dan industri [1] memberikan wawasan tentang alasan di balik ini.

Tantangan 1: Pertukaran antara kualitas dan kecepatan. Saat ini, ada dua pendekatan utama dalam ranah 3D GenAI:

  • 2D Lifting: Meningkatkan model generatif 2D (seperti Stable Diffusion) ke 3D, menggunakan teknik optimasi iteratif yang diterapkan pada struktur seperti NeRFs. Metode ini menggunakan banyak data 2D dan dapat membuat berbagai model 3D berkualitas baik, tetapi lambat dan dapat memakan waktu berjam-jam bahkan pada GPU cepat seperti RTX 3080.
  • 3D Diffusion: Pendekatan ini secara signifikan memangkas waktu generasi menjadi kurang dari 1 menit per model. Karena tidak banyak data pelatihan 3D yang tersedia, model yang dibuat dengan cara ini sering kali kurang berkualitas baik.

Pertukaran antara kualitas dan kecepatanMetode saat ini terlalu lambat atau kurang kualitas yang diinginkan, menghambat pengembangan produk yang efektif. Meshy bertujuan untuk menjadi cepat dan berkualitas tinggi.

Itulah mengapa tidak banyak produk 3D GenAI di luar sana. Menggunakan difusi 3D menghasilkan kualitas rendah, sementara 2D lifting menyebabkan waktu tunggu yang lama bagi pengguna dan biaya server yang tinggi. Tim kami bekerja keras untuk menggabungkan manfaat dari dua pendekatan dan mengatasi pertukaran antara kualitas dan kecepatan, menciptakan produk yang memungkinkan pengguna mengubah teks/gambar menjadi model 3D yang baik dalam waktu kurang dari satu menit.

Kesenjangan antara penelitian dan kebutuhan pengguna

Tantangan 2: Kesenjangan antara inovasi akademik dan kebutuhan pengguna. Produk yang berpusat pada pengguna melampaui sekadar algoritma dan bobot jaringan saraf; produk tersebut memerlukan antarmuka pengguna yang intuitif dan integrasi yang mulus dengan alat yang banyak digunakan seperti Unity dan Blender. Selain itu, produk tersebut harus menawarkan jumlah poligon yang dapat dikelola yang sesuai untuk permainan seluler dan menyediakan kontrol konten/gaya yang efektif untuk mewujudkan ide pengguna secara autentik. Meskipun pembuatan produk bukanlah ilmu roket, hal ini memerlukan wawasan produk yang mendalam dan pemahaman yang mendalam tentang industri CG untuk dikembangkan. [2]

Meshy-1: 3D GenAI Dibuat Pantas dan Hebat

Seperti yang dinyatakan sebelum ini, jika proses penjanaan mengambil masa berjam-jam, ia menjadi mencabar untuk mencipta produk yang dapat berkembang kepada ratusan pengguna. Jadi sebagai pembuat, adalah penting untuk menyelesaikan isu kelajuan terlebih dahulu.

Meshy feature bento grid

Memperkenalkan Meshy-1, AI generatif 3D yang pantas, memberi kuasa kepada pencipta kandungan untuk mengubah teks dan imej menjadi model 3D yang menawan dalam masa kurang dari satu minit. Meshy-1 mempunyai tiga mod yang mudah digunakan:

  1. Text to 3D: Kata-kata masuk, model 3D keluar
  2. Image to 3D: Gambar disediakan, model 3D dihasilkan
  3. Text to Texture: Teksturkan model anda dengan penerangan teks yang mudah [3]

Ketiga-tiga mod ini berfungsi dengan pantas dan memberikan hasil dalam masa kurang dari 60 saat.

Satu adegan yang dihasilkan sepenuhnya oleh AI. Setiap model dalam adegan ini dihasilkan menggunakan Meshy-1 Text to 3D.

Berdasarkan asas Meshy-1 yang biasa, ketiga-tiga mod ini berkongsi ciri-ciri yang sebelum ini tidak tersedia dalam produk sedia ada:

30x lebih pantas. Produk sedia ada boleh menyebabkan pengguna menunggu berjam-jam, dan kami percaya itu tidak boleh diterima. Meshy-1 merevolusikan proses ini dengan memberikan hasil dalam masa kurang dari satu minit[4]. Ini bukan sahaja meningkatkan pengalaman pengguna dan produktiviti, tetapi kecekapan luar biasa Meshy-1 juga membolehkan kami mengurangkan kos per penjanaan di pihak pengguna dengan ketara.

Mesra aliran kerja. Memastikan model 3D sedia untuk digunakan dalam aplikasi hiliran adalah kritikal. Kami menyokong format output seperti glb, usdz dan fbx. Kami juga akan melancarkan plugin Unity minggu depan, dengan plugin Blender & UE akan datang kemudian. Kami juga merancang untuk menambah pilihan kawalan polycount, yang membolehkan anda mengurangkan polycount dalam aplikasi web.

Meshy unity plugin screenshot

Tekstur berkualiti tinggi. Meshy-1 memberikan kejayaan dalam kualiti tekstur.

  • Resolusi 4K. Resolusi penting, dan tekstur Meshy-1 adalah tajam.
  • Saluran PBR. Rendering Berasaskan Fizikal (PBR) telah menjadi penting dalam permainan dan filem, dan Meshy-1 menghasilkan peta metalik, kekasaran, dan normal untuk realisme fizikal.
  • Sokongan bahan berganda untuk Text to Texture. Apabila anda menjana tekstur untuk model 3D sedia ada, sering kali model anda mempunyai pelbagai set UV dan pelbagai kumpulan peta tekstur. Mod text-to-texture kami menyokong kes-kes seperti ini dengan baik.

Kawalan gaya. Dalam mod Text to 3D dan Text to Texture Meshy-1, anda boleh memilih daripada pelbagai gaya artistik untuk penjanaan anda, termasuk Realistik, Kartun, Anime, Komik, dan banyak lagi. Ini memberikan anda kawalan yang besar terhadap gaya seni, melebihi apa yang mungkin dibenarkan oleh arahan teks sahaja.

Bagaimana Menggunakannya?

Meshy-1 mudah diakses di kedua-dua aplikasi web kami dan Discord. Walaupun menawarkan fungsi yang serupa di seluruh platform, terdapat ciri-ciri yang berbeza untuk diperhatikan:

  • Discord menyediakan penjanaan tanpa had secara percuma, walaupun ciptaan anda boleh dilihat secara umum di saluran penjanaan.
  • Aplikasi Web memberikan 20 penjanaan percuma setiap hari dan menambah keupayaan tambahan seperti penjadualan tugas, saluran PBR, kawalan gaya, perkongsian pautan, dan pengurusan ruang kerja penjanaan anda.

Ciri-ciri terbaru Text to Texture dan Image to 3D boleh digunakan dengan mudah di kedua-dua Discord dan aplikasi web. Anda boleh menemui Text to 3D yang dikemas kini di Discord hari ini, dan ia akan tersedia di aplikasi web dalam beberapa minggu. Bagaimana cara menggunakan ciri-ciri ini dalam dunia sebenar? Melalui pengguna awal, kami telah menemui corak untuk penjanaan 3D yang berkesan: gunakan Text to 3D untuk props (seni persekitaran), dan Image to 3D untuk watak.

Text to 3D untuk props. Hanya masukkan arahan teks dan biarkan Meshy-1 mencipta model mengikut penerangan anda, sesuai untuk menjana aset persekitaran atau "props" dalam permainan. Pastikan gaya yang konsisten menggunakan pilihan gaya kami.

Scene created by RenderMan, senior UE artist based in New York, with everything generated using Meshy-1 Text to 3D.

Image to 3D untuk watak. Gunakan imej pandangan hadapan, termasuk yang dari Midjourney atau Stable Diffusion, dan Meshy-1 akan mengangkatnya menjadi model 3D. Ciri Image to 3D memastikan kawalan output yang kuat, mencipta representasi 3D sebenar dari input 2D anda, menjadikannya kegemaran di kalangan pengguna awal untuk penciptaan watak.

Scene by Samuel, CG artist in Tokyo, Meshy early Adoptor. All characters are generated using Meshy-1 Image to 3D and then animated using Mixamo.

Bagaimana untuk memilih imej yang sesuai? Pilih pandangan hadapan (dengan kamera diposisikan betul-betul di hadapan watak) dan latar belakang yang bersih.

Image examples for better results

Retexture models using Text to Texture. Menggunakan mod Text to Texture kami yang telah diuji, anda boleh dengan mudah mencipta atau menggantikan tekstur model sedia ada, terutamanya yang dijana oleh AI.

Beyond the Horizon

Meshy in 3D generative AI

Matlamat kami adalah untuk menjadikan Meshy sebagai platform utama dalam 3D GenAI. Walaupun Meshy-1 menandakan langkah maju yang signifikan, ia bukanlah bab terakhir. Malah, kemajuan teknologi GenAI untuk 3D ketinggalan berbanding GenAI untuk teks atau imej. Ini kerana 3D memperkenalkan lebih banyak dimensi dan kerumitan. Oleh itu, ia mengambil masa untuk produk 3D GenAI benar-benar mencapai kualiti pengeluaran.

Selain mengoptimumkan output Meshy-1, kami sedang meneroka laluan berikut untuk peta jalan produk kami, dipandu oleh maklum balas pengguna dan pembelajaran kami,

Kualiti mesh yang ditingkatkan. Had semasa AI generatif, seperti jumlah poligon yang tinggi (biasanya 100K+), kualiti pembalutan UV yang lemah, dan kekurangan muka quad, telah mengehadkan kehebatannya dalam menjana aset sedia pengeluaran. Menangani kekangan ini adalah penting, terutamanya memandangkan keutamaan industri untuk muka quad dalam animasi dan model jumlah poligon rendah untuk permainan mudah alih.

Iterasi perbualan. Apabila pengguna beralih dari perisian pemodelan 3D tradisional seperti Maya dan 3Ds Max, mereka menginginkan kawalan yang lebih besar ke atas output yang dijana AI. Adalah berguna untuk memberdayakan pengguna dengan keupayaan penapisan iteratif, mengingatkan interaksi berbilang pusingan gaya ChatGPT.

Kawalan yang dipertingkatkan. Sebagai contoh, pengguna ingin mencipta model 3D dengan menjana mereka dari pelbagai perspektif 2D, seperti pandangan hadapan, sisi, dan belakang. Untuk imej ke 3D, kami percaya penjanaan pelbagai pandangan adalah arah yang penting untuk diambil.

Output dengan konsistensi gaya. Konsistensi dalam rendering gaya adalah permintaan pengguna yang berulang, menekankan keperluan untuk model mematuhi tema visual yang ditetapkan. Akhir sekali, penghargaan yang tulus dan pujian kepada seluruh pasukan Meshy AI. Kejayaan kita sekarang adalah bukti komitmen dan usaha semua orang yang tidak berbelah bahagi. Ketika kita melihat ke hadapan, masa depan kelihatan menjanjikan, dan saya tidak ragu bahawa bersama-sama kita akan terus berinovasi dan cemerlang. Teruskan terlibat, kerana kita berada di ambang untuk mendedahkan sesuatu yang lebih luar biasa!

[1]Sebelum memulakan perjalanan Meshy, saya menamatkan Ph.D. saya dalam CG & AI di MIT, menyumbang kepada penyelidikan yang diterbitkan di persidangan terkenal seperti SIGGRAPH dan ICLR. Selepas menamatkan pengajian kedoktoran saya dalam masa 3.5 tahun, saya telah menghabiskan 2.5 tahun berikutnya sebagai pengasas startup, membolehkan saya menjembatani pengetahuan akademik saya dengan aspek praktikal membina produk dunia nyata, sambil terus belajar dan berkembang dalam bidang dinamik ini.

[2]Mengapa kami? Pasukan Meshy terdiri daripada pakar dari institusi dan syarikat ternama seperti MIT, Harvard, NVIDIA, Microsoft, Google, dan Meta, dengan pengetahuan mendalam dalam grafik komputer, AI, GPU, pemrograman boleh beza, dan pengkomputeran awan. Kami sebelum ini telah membina produk yang berpusatkan pembangun dan pengguna yang diterima oleh pangkalan pengguna kami. Pengalaman ini menyediakan asas kukuh untuk mencipta produk AI generatif 3D.

[3]Kami melancarkan alat yang dipanggil Meshy Texturer pada Mac 2023, tetapi kini Meshy-1 hadir dengan Text to Texture yang dinaik taraf. Anda boleh memadankan Meshy Texturer dengan mod Text to 3D dan Image to 3D kami, membolehkan anda menyesuaikan tekstur pada output yang dijana AI.

[4]Data diperoleh dalam persekitaran makmal. Semasa tempoh beban pelayan yang tinggi, masa menunggu mungkin melebihi satu minit.

စာရေးသူအကြောင်း

Dr. Ethan (Yuanming) Hu is a co-founder and serves as the CEO of Meshy. He obtained his Ph.D. in computer graphics from MIT CSAIL in 2021. His Ph.D. research on differentiable GPU programming languages earned him an honorable mention for the SIGGRAPH 2022 Outstanding Doctoral Dissertation Award. In 2021, Ethan co-founded Meshy, a company focused on CG software. He's currently focused on building Meshy AI, a world-leading platform in 3D GenAI.

Meshy is a global startup headquartered in San Jose, CA.

ဤပို့စ်သည် အသုံးဝင်ပါသလား။

Buka aliran kerja 3D yang lebih pantas.

Ubah proses reka bentuk anda dengan Meshy. Cuba sekarang dan lihatlah kreativiti anda menjadi hidup dengan mudah!