Vizyonumuz, herkesin 3D hayallerini gerçekleştirmesini sağlamak. Bu yüzden Meshy-1'i geliştirdik; hızlı bir 3D üretici yapay zeka, içerik oluşturucuların metin ve görüntüleri sadece bir dakika içinde büyüleyici 3D modellere dönüştürmelerini sağlıyor.
Bu blogda, Meshy-1'in arkasındaki hikayeyi ve yeteneklerini açıklamaktan heyecan duyuyoruz[]. Hazırlanın, şaşıracaksınız!
Neden 3D için GenAI önemli (ve zor)?
Özellikle oyun, film ve XR endüstrilerinde 3D etkileşimli içeriklerdeki artış, 3D modellere olan talebi artırdı. Uzman yaratıcılar uzun üretim süreleriyle karşı karşıya kalırken, sıradan yaratıcılar Maya veya Blender gibi karmaşık araçlarla mücadele ediyor. Maliyet ve karmaşıklık engelleriyle büyüyen bu boşluk, bir çözüm çağrısında bulunuyor.
Şimdi kritik bir an. Apple'ın Vision Pro'sunun tanıtılması ve Meta'nın Quest 3'ü sunmasıyla birlikte, üretici yapay zeka teknolojisinin hızlı ilerlemesi ve büyüyen oyun pazarıyla birlikte, çığır açan bir 3D üretici yapay zeka için toplu beklenti hissedilir ve gerçekleşmeye hazır.
Üretici yapay zekanın bu heyecan verici döneminde, farklı modlar arasında birçok güçlü ürün ortaya çıkıyor. Örneğin, metin için ChatGPT, görüntüler için Midjourney ve videolar için Runway görüyoruz.
3D üretiminin bir sonraki adım olarak mantıklı görünmesine rağmen, ilginç bir şekilde, bu alanda kesin bir lider yok, çünkü kullanımı kolay bir ürün yaratmanın tarifi henüz keşfedilmedi. Neden böyle?
Hem akademide hem de endüstrideki yolculuğum [1] bu durumun nedenlerini anlamamı sağlıyor.
Zorluk 1: Kalite ve hız arasındaki denge. Şu anda, 3D GenAI alanında iki baskın yaklaşım var:
- 2D Yükseltme: 2D üretici modelleri (örneğin, Stable Diffusion) 3D'ye yükseltmek, NeRF'ler gibi yapılara uygulanan yinelemeli optimizasyon tekniklerini kullanmak. Bu yöntemler çok sayıda 2D veri kullanır ve çeşitli iyi kalitede 3D modeller üretebilir, ancak yavaştır ve RTX 3080 gibi hızlı GPU'larda bile saatler sürebilir.
- 3D Difüzyon: Bu yaklaşım, model başına üretim süresini 1 dakikadan daha az bir süreye önemli ölçüde indirir. Ancak, yeterli 3D eğitim verisi bulunmadığından, bu şekilde yapılan modeller genellikle iyi kaliteden yoksundur.
Mevcut yöntemler ya çok yavaş ya da istenen kaliteden yoksun, etkili bir ürün geliştirilmesini engelliyor. Meshy hem hızlı hem de yüksek kaliteli olmayı hedefliyor.
Bu yüzden çok fazla 3D GenAI ürünü yok. 3D difüzyon düşük kaliteyle sonuçlanırken, 2D yükseltme kullanıcılar için uzun bekleme sürelerine ve yüksek sunucu maliyetlerine yol açar. Ekibimiz, iki yaklaşımın faydalarını birleştirip kalite ve hız arasındaki dengeyi aşmak için çalıştı ve kullanıcılara metin/görüntüleri bir dakika içinde iyi 3D modellere dönüştürme imkanı sunan bir ürün yarattı.
Zorluk 2: Akademik yenilikler ve kullanıcı ihtiyaçları arasındaki uçurum. Kullanıcı odaklı bir ürün, yalnızca algoritmalar ve sinir ağı ağırlıklarının ötesine geçer; Unity ve Blender gibi yaygın araçlarla sezgisel kullanıcı arayüzleri ve sorunsuz entegrasyonlar gerektirir. Ayrıca, mobil oyunlar için uygun yönetilebilir poligon sayıları sunmalı ve kullanıcı fikirlerini özgün bir şekilde gerçekleştirmek için etkili içerik/stil kontrolü sağlamalıdır. Ürünleştirme roket bilimi olmasa da, derin ürün içgörüleri ve CG endüstrisinin derin bir anlayışını gerektirir. [2]
Meshy-1: 3D GenAI Hızlı ve Muhteşem Yapıldı
Daha önce belirtildiği gibi, eğer üretim süreci saatler sürüyorsa, yüzlerce kullanıcıya ölçeklenebilecek bir ürün yaratmak zorlaşır. Bu yüzden bir yapımcı olarak, hız sorununu öncelikle çözmek acil bir durumdur.
Meshy-1'i tanıtıyoruz, hızlı bir 3D üretici AI, içerik üreticilerinin metin ve görüntüleri büyüleyici 3D modellere sadece bir dakika içinde dönüştürmelerini sağlıyor. Meshy-1'in kullanımı kolay üç modu vardır:
- Metinden 3D'ye: Kelimeler girin, 3D modeller çıkın
- Görüntüden 3D'ye: Resimler verin, 3D modeller üretin
- Metinden Dokuya: Modellerinizi basit metin açıklamalarıyla dokulayın [3]
Üç mod da hızlı çalışır ve size 60 saniyeden kısa sürede sonuç verir.
Tamamen AI tarafından üretilmiş bir sahne. Bu sahnedeki her model Meshy-1 Metinden 3D'ye kullanılarak üretilmiştir.Ortak bir Meshy-1 temeli üzerine inşa edilen üç mod, mevcut ürünlerde daha önce bulunmayan ortak özellikleri paylaşır:
30 kat daha hızlı. Mevcut ürünler kullanıcıları saatlerce bekletebilir ve bunun kabul edilemez olduğuna inanıyoruz. Meshy-1 bu süreci devrim niteliğinde değiştirerek sonuçları bir dakikadan kısa sürede sunar[4]. Bu sadece kullanıcı deneyimini ve üretkenliği artırmakla kalmaz, aynı zamanda Meshy-1'in olağanüstü verimliliği, kullanıcı başına düşen üretim maliyetini önemli ölçüde azaltmamıza olanak tanır.
İş akışına dost. 3D modellerin aşağı akış uygulamalarında kullanıma hazır olmasını sağlamak kritik öneme sahiptir. glb, usdz ve fbx gibi çıktı formatlarını destekliyoruz. Gelecek hafta bir Unity eklentisi başlatıyoruz, Blender ve UE eklentileri ise daha sonra gelecek. Ayrıca web uygulamasında poligon sayısını kontrol etme seçeneği eklemeyi planlıyoruz.
Yüksek kaliteli dokular. Meshy-1 doku kalitesinde bir atılım sunar.
- 4K çözünürlük. Çözünürlük önemlidir ve Meshy-1 dokuları keskin ve nettir.
- PBR kanalları. Fiziksel Tabanlı Renderleme (PBR) oyunlar ve filmlerde önemli hale gelmiştir ve Meshy-1 fiziksel gerçekçilik için metalik, pürüzlülük ve normal haritalar üretir.
- Metinden Dokuya için çoklu malzeme desteği. Mevcut bir 3D model için dokular oluştururken, modelinizin genellikle birden fazla UV seti ve birden fazla doku haritası grubu vardır. Metinden dokuya modumuz bu tür durumları iyi destekler.
Stil kontrolü. Meshy-1'in Metinden 3D'ye ve Metinden Dokuya modlarında, Realistik, Çizgi Film, Anime, Çizgi Roman ve daha fazlası gibi çeşitli sanatsal stiller arasından seçim yapabilirsiniz. Bu, size sanatsal stil üzerinde, yalnızca metinsel istemlerin izin verebileceğinden daha fazla kontrol sağlar.
Nasıl Kullanılır?
Meshy-1, hem web uygulamamızda hem de Discord'da kolayca erişilebilir. Platformlar arasında benzer işlevler sunarken, dikkat edilmesi gereken belirgin özellikler vardır:
- Discord sınırsız ücretsiz üretimler sağlar, ancak oluşturduklarınız üretim kanalında herkese açık olarak görünür.
- Web Uygulaması günlük 20 ücretsiz üretim sağlar ve görev sıralama, PBR kanalları, stil kontrolü, bağlantı paylaşımı ve üretim çalışma alanınızın yönetimi gibi ek yetenekler sunar.
En son Metinden Dokuya ve Görüntüden 3D'ye özellikleri hem Discord'da hem de web uygulamasında kullanıma hazırdır. Güncellenmiş Metinden 3D'yi bugün Discord'da bulabilirsiniz ve birkaç hafta içinde web uygulamasında da mevcut olacak. Peki bu özellikleri gerçek dünyada nasıl kullanabiliriz? Erken benimseyenler aracılığıyla etkili 3D üretimi için bazı kalıplar bulduk: dekorlar (çevre sanatı) için Metin'den 3D'ye ve karakterler için Görüntü'den 3D'ye kullanın.
Dekorlar için Metin'den 3D'ye. Basitçe bir metin istemi girin ve Meshy-1'in tanımınıza göre modeller oluşturmasına izin verin, oyunlarda çevresel varlıklar veya "dekorlar" oluşturmak için idealdir. Tarz seçeneğimizi kullanarak tutarlı bir stil sağlayın.
New York merkezli kıdemli UE sanatçısı RenderMan tarafından oluşturulan sahne, her şey Meshy-1 Metin'den 3D'ye kullanılarak oluşturuldu.Karakterler için Görüntü'den 3D'ye. Midjourney veya Stable Diffusion'dan alınanlar dahil olmak üzere bir ön görünüm görüntüsü kullanın ve Meshy-1 bunu bir 3D modele dönüştürsün. Görüntü'den 3D'ye özelliği, 2D girdinizin gerçek bir 3D temsilini oluşturarak güçlü çıktı kontrolü sağlar ve karakter oluşturma için erken kullanıcılar arasında favori haline gelir.
Tokyo'da CG sanatçısı ve Meshy erken benimseyicisi Samuel tarafından oluşturulan sahne. Tüm karakterler Meshy-1 Görüntü'den 3D'ye kullanılarak oluşturuldu ve ardından Mixamo kullanılarak animasyon yapıldı.Uygun görüntüler nasıl seçilir? Ön görünümleri (kamera karakterin tam önünde konumlandırılmış) ve temiz bir arka plan tercih edin.
Metin'den Dokuya kullanarak modelleri yeniden doku yapın. Savaşta test edilmiş Metin'den Dokuya modumuzu kullanarak, özellikle AI tarafından üretilen mevcut modellerin dokularını kolayca oluşturabilir veya değiştirebilirsiniz.
Ufkun Ötesinde
Amacımız, Meshy'yi 3D GenAI'de önde gelen platform olarak kurmaktır. Meshy-1 önemli bir adım olsa da, bu kesinlikle son bölüm değildir. Aslında, 3D için GenAI'nin teknolojik ilerlemesi, metin veya görüntüler için GenAI'nin gerisinde kalmaktadır. Bunun nedeni, 3D'nin daha fazla boyut ve karmaşıklık getirmesidir. Bu nedenle, 3D GenAI ürünlerinin gerçekten üretim kalitesine ulaşması zaman alır.
Meshy-1 çıktılarının optimizasyonunun yanı sıra, kullanıcı geri bildirimlerimiz ve öğrenimlerimiz doğrultusunda ürün yol haritamız için aşağıdaki yolları araştırıyoruz,
Geliştirilmiş ağ kalitesi. Üretken AI'nin mevcut sınırlamaları, yüksek poligon sayıları (genellikle 100K+), zayıf UV sarma kalitesi ve dörtgen yüzlerin eksikliği gibi, üretime hazır varlıklar oluşturma yeteneğini sınırlamıştır. Bu kısıtlamaların ele alınması, özellikle animasyonda dörtgen yüzlerin ve mobil oyunlar için düşük poligon sayılı modellerin tercih edilmesi göz önüne alındığında önemlidir.
Konuşma tabanlı yinelemeler. Kullanıcılar Maya ve 3Ds Max gibi geleneksel 3D modelleme yazılımlarından uzaklaştıkça, AI tarafından üretilen çıktılar üzerinde daha fazla kontrol istiyorlar. Kullanıcılara ChatGPT tarzı çoklu tur etkileşimlerini hatırlatan yinelemeli iyileştirme yetenekleri sağlamak faydalıdır.
Geliştirilmiş kontrol. Örneğin, kullanıcılar ön, yan ve arka görünümler gibi birden fazla 2D perspektiften 3D modeller oluşturmak istiyor. Görüntü'den 3D'ye için, çoklu görünüm üretiminin önemli bir yön olduğunu düşünüyoruz.
Tarz tutarlılığı ile çıktılar. Stilistik render tutarlılığı, modellerin belirlenmiş bir görsel temaya uymasını vurgulayan tekrar eden bir kullanıcı talebidir. Sonunda, tüm Meshy AI ekibine içten bir takdir ve tebrikler. Mevcut başarımız, herkesin sarsılmaz bağlılığının ve çabalarının bir kanıtıdır. İleriye baktığımızda, ufuk umut verici ve birlikte yenilik yapmaya ve mükemmelleşmeye devam edeceğimizden hiç şüphem yok. Katılımcı kalın, çünkü daha da dikkat çekici bir şeyi ortaya çıkarmanın eşiğindeyiz!
[1]Meshy yolculuğuna başlamadan önce, MIT'de CG & AI alanında doktora derecemi tamamladım ve SIGGRAPH ve ICLR gibi tanınmış konferanslarda yayınlanan araştırmalara katkıda bulundum. Doktora çalışmalarımı 3,5 yılda tamamladıktan sonra, sonraki 2,5 yıl boyunca bir startup kurucusu olarak geçirdim ve bu sayede akademik bilgimi gerçek dünya ürünleri oluşturmanın pratik yönleriyle birleştirme fırsatı buldum, tüm bunları yaparken bu dinamik alanda öğrenmeye ve büyümeye devam ettim.
[2]Neden biz? Meshy ekibi, MIT, Harvard, NVIDIA, Microsoft, Google ve Meta gibi saygın kurum ve şirketlerden gelen uzmanlardan oluşmaktadır ve bilgisayar grafikleri, yapay zeka, GPU'lar, farklılaştırılabilir programlama ve bulut bilişim konularında derin bilgiye sahiptir. Daha önce kullanıcı tabanımız tarafından kabul edilen geliştirici ve kullanıcı odaklı ürünler oluşturduk. Bu deneyimler, 3D üretken yapay zeka ürünü oluşturmak için sağlam bir temel sağlar.
[3]Mart 2023'te Meshy Texturer adlı bir araç piyasaya sürdük, ancak şimdi Meshy-1, yükseltilmiş Text to Texture ile burada. Meshy Texturer'ı, AI tarafından üretilen çıktılardaki dokuları ince ayarlamanıza olanak tanıyan Text to 3D ve Image to 3D modlarımızla eşleştirebilirsiniz.
[4]Laboratuvar ortamında elde edilen veriler. Sunucu yükünün yüksek olduğu dönemlerde bekleme süreleri bir dakikayı aşabilir.