PENGUMUMAN

Meshy-1: Hasilkan Model 3D dengan AI dalam Waktu Satu Menit Saja

Visi kami adalah memberdayakan setiap orang untuk mewujudkan imajinasi 3D mereka. Itulah mengapa kami membangun Meshy-1, AI generatif cepat untuk 3D, yang memberdayakan pembuat konten untuk mengubah teks dan gambar menjadi model 3D yang memukau hanya dalam waktu kurang dari satu menit. Dalam blog ini, kami dengan senang hati mengungkapkan cerita di balik Meshy-1 dan kemampuannya. Bersiaplah untuk terpesona!

Ethan
Diposting: 19 Oktober 2023

Visi kami adalah memberdayakan setiap orang untuk mewujudkan imajinasi 3D mereka. Itulah sebabnya kami membangun Meshy-1, AI generatif cepat untuk 3D, yang memberdayakan pembuat konten untuk mengubah teks dan gambar menjadi model 3D yang memukau dalam waktu kurang dari satu menit.

Dalam blog ini, kami dengan senang hati mengungkapkan cerita di balik Meshy-1 dan kemampuannya[]. Bersiaplah untuk terpesona!

Mengapa GenAI untuk 3D penting (dan sulit)?

Lonjakan konten interaktif 3D, terutama dalam industri game, film, dan XR, telah meningkatkan permintaan untuk model 3D. Pembuat konten ahli menghadapi waktu produksi yang lama, sementara pembuat konten kasual kesulitan dengan alat yang kompleks seperti Maya atau Blender. Kesenjangan ini, diperparah oleh hambatan biaya dan kompleksitas, memerlukan solusi.

Sekarang adalah momen penting. Dengan peluncuran Apple Vision Pro dan Meta memperkenalkan Quest 3, ditambah dengan kemajuan pesat teknologi AI generatif dan pasar game yang berkembang pesat, antisipasi kolektif untuk AI generatif 3D yang revolusioner terasa nyata dan siap untuk diwujudkan.

Berbagai modalitas produk AI generatif, dari teks, gambar hingga video, dan mungkin ke 3D?

Dalam era AI generatif yang mendebarkan ini, banyak produk kuat bermunculan di berbagai modalitas. Misalnya, kita melihat ChatGPT untuk teks, Midjourney untuk gambar, dan Runway untuk video.

Meskipun mungkin tampak logis untuk menganggap generasi 3D sebagai langkah selanjutnya, menariknya, belum ada pemimpin definitif dalam bidang ini, terutama karena resep untuk menciptakan produk yang mudah digunakan belum ditemukan. Mengapa demikian?

Perjalanan saya melalui akademisi dan industri [1] memberikan wawasan tentang alasan di balik ini.

Tantangan 1: Perdagangan antara kualitas dan kecepatan. Saat ini, ada dua pendekatan utama dalam ranah 3D GenAI:

  • 2D Lifting: Meningkatkan model generatif 2D (seperti Stable Diffusion) ke 3D, menggunakan teknik optimasi iteratif yang diterapkan pada struktur seperti NeRFs. Metode ini menggunakan banyak data 2D dan dapat membuat berbagai model 3D berkualitas baik, tetapi lambat dan bisa memakan waktu berjam-jam bahkan pada GPU cepat seperti RTX 3080.
  • 3D Diffusion: Pendekatan ini secara signifikan memangkas waktu generasi menjadi kurang dari 1 menit per model. Karena tidak banyak data pelatihan 3D yang tersedia, model yang dibuat dengan cara ini sering kali kurang berkualitas baik.

Perdagangan antara kualitas dan kecepatanMetode saat ini terlalu lambat atau kurang kualitas yang diinginkan, menghambat pengembangan produk yang efektif. Meshy bertujuan untuk menjadi cepat dan berkualitas tinggi.

Itulah sebabnya tidak banyak produk 3D GenAI di luar sana. Menggunakan 3D diffusion menghasilkan kualitas rendah, sementara 2D lifting menyebabkan waktu tunggu yang lama bagi pengguna dan biaya server yang tinggi. Tim kami bekerja keras untuk menggabungkan manfaat dari kedua pendekatan dan mengatasi perdagangan antara kualitas dan kecepatan, menciptakan produk yang memungkinkan pengguna mengubah teks/gambar menjadi model 3D yang baik dalam waktu kurang dari satu menit.

Kesenjangan antara penelitian dan kebutuhan pengguna

Tantangan 2: Kesenjangan antara inovasi akademis dan kebutuhan pengguna. Produk yang berpusat pada pengguna melampaui sekadar algoritma dan bobot jaringan saraf; ia memerlukan antarmuka pengguna yang intuitif dan integrasi yang mulus dengan alat yang umum digunakan seperti Unity dan Blender. Selain itu, harus menawarkan polycount yang dapat dikelola yang sesuai untuk game mobile dan menyediakan kontrol konten/gaya yang efektif untuk mewujudkan ide pengguna secara autentik. Meskipun produkisasi bukanlah ilmu roket, hal ini memerlukan wawasan produk yang mendalam dan pemahaman yang mendalam tentang industri CG untuk dikembangkan. [2]

Meshy-1: 3D GenAI yang Cepat dan Luar Biasa

Seperti yang telah disebutkan sebelumnya, jika proses generasi memakan waktu berjam-jam, akan menjadi tantangan untuk menciptakan produk yang dapat berkembang hingga ratusan pengguna. Jadi sebagai pembuat, penting untuk segera menyelesaikan masalah kecepatan.

Meshy feature bento grid

Memperkenalkan Meshy-1, AI generatif 3D yang cepat, memberdayakan pembuat konten untuk mengubah teks dan gambar menjadi model 3D yang memukau dalam waktu kurang dari satu menit. Meshy-1 memiliki tiga mode yang mudah digunakan:

  1. Text to 3D: Kata-kata masuk, model 3D keluar
  2. Image to 3D: Gambar disediakan, model 3D diproduksi
  3. Text to Texture: Tekstur model Anda dengan deskripsi teks sederhana [3]

Ketiga mode ini bekerja cepat dan memberikan hasil dalam waktu kurang dari 60 detik.

Sebuah adegan yang sepenuhnya dihasilkan oleh AI. Setiap model dalam adegan ini dihasilkan menggunakan Meshy-1 Text to 3D.

Dibangun di atas fondasi umum Meshy-1, ketiga mode ini berbagi fitur umum yang sebelumnya tidak tersedia dalam produk yang ada:

30x lebih cepat. Produk yang ada dapat membuat pengguna menunggu berjam-jam, dan kami percaya itu tidak dapat diterima. Meshy-1 merevolusi proses ini dengan memberikan hasil dalam waktu kurang dari satu menit[4]. Tidak hanya meningkatkan pengalaman dan produktivitas pengguna, efisiensi luar biasa Meshy-1 juga memungkinkan kami untuk secara signifikan mengurangi biaya per generasi di sisi pengguna.

Ramah alur kerja. Memastikan model 3D siap digunakan dalam aplikasi hilir adalah hal yang kritis. Kami mendukung format output seperti glb, usdz, dan fbx. Kami juga akan meluncurkan plugin Unity minggu depan, dengan plugin Blender & UE akan datang kemudian. Kami juga berencana menambahkan opsi untuk kontrol polycount, yang memungkinkan Anda mengurangi polycount di aplikasi web.

Meshy unity plugin screenshot

Tekstur berkualitas tinggi. Meshy-1 menghadirkan terobosan dalam kualitas tekstur.

  • Resolusi 4K. Resolusi penting, dan tekstur Meshy-1 sangat tajam.
  • Saluran PBR. Physically Based Rendering (PBR) telah menjadi sangat penting dalam game dan film, dan Meshy-1 menghasilkan peta metalik, kekasaran, dan normal untuk realisme fisik.
  • Dukungan material ganda untuk Text to Texture. Ketika Anda menghasilkan tekstur untuk model 3D yang ada, seringkali model Anda memiliki beberapa set UV dan beberapa grup peta tekstur. Mode text-to-texture kami mendukung kasus-kasus seperti itu dengan baik.

Kontrol gaya. Dalam mode Text to 3D dan Text to Texture Meshy-1, Anda dapat memilih dari berbagai gaya artistik untuk generasi Anda, termasuk Realistis, Kartun, Anime, Komik, dan lainnya. Ini memberikan Anda kontrol substansial atas gaya seni, melampaui apa yang mungkin diizinkan oleh prompt teks saja.

Bagaimana Cara Menggunakannya?

Meshy-1 dapat diakses dengan mudah baik di aplikasi web kami maupun di Discord. Meskipun menawarkan fungsionalitas serupa di seluruh platform, ada fitur-fitur yang berbeda untuk dicatat:

  • Discord menyediakan generasi gratis tanpa batas, meskipun kreasi Anda terlihat publik di saluran generasi.
  • Aplikasi Web memberikan 20 generasi gratis setiap hari dan menambahkan kemampuan tambahan seperti antrian tugas, saluran PBR, kontrol gaya, berbagi tautan, dan pengelolaan ruang kerja generasi Anda.

Fitur terbaru Text to Texture dan Image to 3D dapat digunakan dengan mudah baik di Discord maupun aplikasi web. Anda dapat menemukan Text to 3D yang diperbarui di Discord hari ini, dan akan tersedia di aplikasi web dalam beberapa minggu. Jadi, bagaimana cara menggunakan fitur-fitur ini di dunia nyata? Melalui pengguna awal, kami menemukan pola untuk generasi 3D yang efektif: gunakan Text to 3D untuk properti (seni lingkungan), dan Image to 3D untuk karakter.

Text to 3D untuk properti. Cukup masukkan prompt teks dan biarkan Meshy-1 membuat model sesuai deskripsi Anda, ideal untuk menghasilkan aset lingkungan atau "properti" dalam game. Pastikan gaya konsisten menggunakan opsi gaya kami.

Scene dibuat oleh RenderMan, seniman UE senior yang berbasis di New York, dengan semua yang dihasilkan menggunakan Meshy-1 Text to 3D.

Image to 3D untuk karakter. Gunakan gambar tampak depan, termasuk yang dari Midjourney atau Stable Diffusion, dan Meshy-1 akan mengubahnya menjadi model 3D. Fitur Image to 3D memastikan kontrol output yang kuat, menciptakan representasi 3D yang nyata dari input 2D Anda, menjadikannya favorit di kalangan pengguna awal untuk pembuatan karakter.

Scene oleh Samuel, seniman CG di Tokyo, pengguna awal Meshy. Semua karakter dihasilkan menggunakan Meshy-1 Image to 3D dan kemudian dianimasikan menggunakan Mixamo.

Bagaimana memilih gambar yang sesuai? Pilih tampak depan (dengan kamera ditempatkan langsung di depan karakter) dan latar belakang yang bersih.

Contoh gambar untuk hasil yang lebih baik

Retexture model menggunakan Text to Texture. Menggunakan mode Text to Texture kami yang telah teruji, Anda dapat dengan mudah membuat atau mengganti tekstur model yang ada, terutama yang dihasilkan oleh AI.

Beyond the Horizon

Meshy dalam AI generatif 3D

Tujuan kami adalah menjadikan Meshy sebagai platform utama dalam 3D GenAI. Sementara Meshy-1 menandai langkah maju yang signifikan, ini bukanlah bab terakhir. Faktanya, kemajuan teknologi GenAI untuk 3D tertinggal dibandingkan dengan GenAI untuk teks atau gambar. Ini karena 3D memperkenalkan lebih banyak dimensi dan kompleksitas. Oleh karena itu, dibutuhkan waktu bagi produk GenAI 3D untuk benar-benar mencapai kualitas produksi.

Selain mengoptimalkan output Meshy-1, kami sedang menjajaki jalur berikut untuk peta jalan produk kami, dipandu oleh umpan balik pengguna dan pembelajaran kami,

Peningkatan kualitas mesh. Batasan AI generatif saat ini, seperti jumlah poligon yang tinggi (biasanya 100K+), kualitas UV unwrapping yang buruk, dan kurangnya wajah quad, telah membatasi kemampuannya dalam menghasilkan aset siap produksi. Mengatasi kendala ini sangat penting, terutama mengingat preferensi industri untuk wajah quad dalam animasi dan model dengan jumlah poligon rendah untuk game mobile.

Iterasi percakapan. Saat pengguna beralih dari perangkat lunak pemodelan 3D tradisional seperti Maya dan 3Ds Max, mereka menginginkan kontrol lebih besar atas output yang dihasilkan AI. Penting untuk memberdayakan pengguna dengan kemampuan penyempurnaan iteratif, mirip dengan interaksi multi-putaran gaya ChatGPT.

Kontrol yang ditingkatkan. Misalnya, pengguna ingin membuat model 3D dengan menghasilkannya dari berbagai perspektif 2D, seperti tampak depan, samping, dan belakang. Untuk image to 3D, kami percaya generasi multi-view adalah arah penting untuk diambil.

Output dengan konsistensi gaya. Konsistensi dalam rendering gaya adalah permintaan pengguna yang berulang, menekankan perlunya model untuk mematuhi tema visual yang ditentukan. Akhirnya, apresiasi yang tulus dan pujian kepada seluruh tim Meshy AI. Keberhasilan kita saat ini adalah bukti dari komitmen dan usaha tanpa henti dari semua orang. Saat kita menatap masa depan, cakrawala terlihat menjanjikan, dan saya tidak ragu bahwa bersama-sama kita akan terus berinovasi dan unggul. Tetap terlibat, karena kita berada di ambang mengungkap sesuatu yang bahkan lebih luar biasa!

[1]Sebelum memulai perjalanan di Meshy, saya menyelesaikan Ph.D. dalam CG & AI di MIT, berkontribusi pada penelitian yang dipublikasikan di konferensi terkenal seperti SIGGRAPH dan ICLR. Setelah menyelesaikan studi doktoral saya dalam 3,5 tahun, saya menghabiskan 2,5 tahun berikutnya sebagai pendiri startup, memungkinkan saya menjembatani pengetahuan akademis saya dengan aspek praktis membangun produk dunia nyata, sambil terus belajar dan berkembang di bidang yang dinamis ini.

[2]Mengapa kami? Tim Meshy terdiri dari para ahli dari institusi dan perusahaan ternama seperti MIT, Harvard, NVIDIA, Microsoft, Google, dan Meta, dengan pengetahuan mendalam dalam grafik komputer, AI, GPU, pemrograman diferensial, dan komputasi awan. Kami sebelumnya telah membangun produk yang berfokus pada pengembang dan pengguna yang diterima oleh basis pengguna kami. Pengalaman ini memberikan dasar yang kuat untuk merancang produk AI generatif 3D.

[3]Kami meluncurkan alat bernama Meshy Texturer pada Maret 2023, tetapi sekarang Meshy-1 hadir dengan Text to Texture yang ditingkatkan. Anda dapat memasangkan Meshy Texturer dengan mode Text to 3D dan Image to 3D kami, memungkinkan Anda untuk menyempurnakan tekstur pada hasil yang dihasilkan oleh AI.

[4]Data diperoleh dalam pengaturan laboratorium. Selama periode beban server tinggi, waktu tunggu mungkin melebihi satu menit.

Tentang Penulis

Dr. Ethan (Yuanming) Hu is a co-founder and serves as the CEO of Meshy. He obtained his Ph.D. in computer graphics from MIT CSAIL in 2021. His Ph.D. research on differentiable GPU programming languages earned him an honorable mention for the SIGGRAPH 2022 Outstanding Doctoral Dissertation Award. In 2021, Ethan co-founded Meshy, a company focused on CG software. He's currently focused on building Meshy AI, a world-leading platform in 3D GenAI.

Meshy is a global startup headquartered in San Jose, CA.

Apakah postingan ini bermanfaat?

Membuka alur kerja 3D yang lebih cepat.

Transformasikan proses desain Anda dengan Meshy. Cobalah sekarang dan lihatlah kreativitas Anda menjadi hidup dengan mudah!