हमारा दृष्टिकोण हर किसी को उनकी 3D कल्पनाओं को साकार करने के लिए सशक्त बनाना है। इसी कारण हमने Meshy-1 का निर्माण किया, जो 3D के लिए एक तेज़ जनरेटिव AI है, जो सामग्री निर्माताओं को टेक्स्ट और छवियों को आकर्षक 3D मॉडलों में बदलने की शक्ति देता है, वह भी एक मिनट से कम समय में।
इस ब्लॉग में, हम Meshy-1 के पीछे की कहानी और इसकी क्षमताओं का अनावरण करने के लिए उत्साहित हैं। तैयार हो जाइए, चकित होने के लिए!
3D के लिए GenAI क्यों महत्वपूर्ण (और कठिन) है?
खेल, फिल्म और XR उद्योगों में विशेष रूप से 3D इंटरैक्टिव सामग्री में वृद्धि ने 3D मॉडलों की मांग को बढ़ा दिया है। विशेषज्ञ निर्माताओं को लंबा उत्पादन समय लगता है, जबकि आकस्मिक निर्माता Maya या Blender जैसे जटिल उपकरणों के साथ संघर्ष करते हैं। लागत और जटिलता की बाधाओं से बढ़ी हुई इस खाई के लिए एक समाधान की आवश्यकता है।
अब यह निर्णायक क्षण है। Apple के Vision Pro के अनावरण और Meta द्वारा Quest 3 की शुरुआत के साथ, जनरेटिव AI तकनीक की तेजी से प्रगति और एक उभरते हुए गेमिंग बाजार के साथ, एक अभूतपूर्व 3D जनरेटिव AI के लिए सामूहिक प्रत्याशा स्पष्ट और साकार होने के लिए तैयार है।
जनरेटिव AI के इस रोमांचक युग में, विभिन्न रूपों में कई शक्तिशाली उत्पाद उभर रहे हैं। उदाहरण के लिए, हम टेक्स्ट के लिए ChatGPT, छवियों के लिए Midjourney, और वीडियो के लिए Runway देखते हैं।
जबकि यह 3D जनरेशन को अगला कदम मानना तार्किक लग सकता है, दिलचस्प बात यह है कि इस क्षेत्र में कोई निश्चित नेता नहीं है, मुख्यतः क्योंकि एक उपयोग में आसान उत्पाद बनाने की विधि अभी तक खोजी नहीं गई है। ऐसा क्यों है?
अकादमिक और उद्योग दोनों में मेरी यात्रा [1] इसके पीछे के कारणों को समझने का एक दृष्टिकोण प्रदान करती है।
चुनौती 1: गुणवत्ता और गति के बीच का समझौता। वर्तमान में, 3D GenAI के क्षेत्र में दो प्रमुख दृष्टिकोण हैं:
- 2D लिफ्टिंग: 2D जनरेटिव मॉडलों (जैसे Stable Diffusion) को 3D में उठाना, NeRFs जैसी संरचनाओं पर लागू पुनरावृत्त अनुकूलन तकनीकों का उपयोग करते हुए। ये विधियाँ बहुत सारे 2D डेटा का उपयोग करती हैं और विभिन्न अच्छे गुणवत्ता वाले 3D मॉडल बना सकती हैं, लेकिन यह धीमी होती हैं और तेज़ GPUs जैसे RTX 3080 पर भी घंटों लग सकते हैं।
- 3D डिफ्यूजन: यह दृष्टिकोण मॉडल प्रति कम से कम 1 मिनट के भीतर जनरेशन समय को काफी कम कर देता है। क्योंकि बहुत अधिक 3D प्रशिक्षण डेटा उपलब्ध नहीं है, इस तरह से बनाए गए मॉडलों में अक्सर अच्छी गुणवत्ता की कमी होती है।
वर्तमान विधियाँ या तो बहुत धीमी हैं या वांछित गुणवत्ता की कमी है, एक प्रभावी उत्पाद के विकास में बाधा डालती हैं। Meshy का उद्देश्य तेज़ और उच्च गुणवत्ता वाला होना है।
इसीलिए वहाँ बहुत सारे 3D GenAI उत्पाद नहीं हैं। 3D डिफ्यूजन का उपयोग करने से कम गुणवत्ता मिलती है, जबकि 2D लिफ्टिंग उपयोगकर्ताओं के लिए लंबे इंतजार के समय और उच्च सर्वर लागतों की ओर ले जाती है। हमारी टीम ने गुणवत्ता और गति के बीच के समझौते को मात देने और दोनों दृष्टिकोणों के लाभों को मिलाकर एक ऐसा उत्पाद बनाने के लिए कड़ी मेहनत की, जो उपयोगकर्ताओं को टेक्स्ट/छवियों को अच्छे 3D मॉडलों में एक मिनट से कम समय में बदलने की अनुमति देता है।
चुनौती 2: शैक्षणिक नवाचारों और उपयोगकर्ता की जरूरतों के बीच की खाई। एक उपयोगकर्ता-केंद्रित उत्पाद केवल एल्गोरिदम और न्यूरल नेटवर्क वेट्स तक सीमित नहीं होता; इसके लिए सहज उपयोगकर्ता इंटरफेस और Unity और Blender जैसे प्रचलित उपकरणों के साथ सहज एकीकरण की आवश्यकता होती है। इसके अलावा, इसे मोबाइल गेमिंग के लिए उपयुक्त प्रबंधनीय पॉलीकाउंट्स की पेशकश करनी चाहिए और उपयोगकर्ता के विचारों को प्रामाणिक रूप से साकार करने के लिए प्रभावी सामग्री/शैली नियंत्रण प्रदान करना चाहिए। जबकि उत्पादकरण रॉकेट विज्ञान नहीं है, इसके लिए गहन उत्पाद अंतर्दृष्टि और CG उद्योग की गहरी समझ की आवश्यकता होती है। [2]
Meshy-1: 3D GenAI को तेज़ और शानदार बनाया गया
जैसा कि पहले कहा गया था, यदि निर्माण प्रक्रिया घंटों तक चलती है, तो सैकड़ों उपयोगकर्ताओं तक भी स्केल करने वाला उत्पाद बनाना चुनौतीपूर्ण हो जाता है। इसलिए एक निर्माता के रूप में, गति समस्या को पहले हल करना अत्यावश्यक है।
Meshy-1 को प्रस्तुत करते हुए, एक तेज़ 3D जनरेटिव AI, जो सामग्री निर्माताओं को पाठ और छवियों को आकर्षक 3D मॉडलों में केवल एक मिनट के भीतर बदलने का सामर्थ्य देता है। Meshy-1 के तीन उपयोग में आसान मोड हैं:
- Text to 3D: शब्द अंदर, 3D मॉडल बाहर
- Image to 3D: चित्र दिए गए, 3D मॉडल तैयार
- Text to Texture: अपने मॉडलों को सरल पाठ विवरणों के साथ टेक्सचर करें [3]
सभी तीन मोड तेज़ी से काम करते हैं और आपको 60 सेकंड के भीतर परिणाम देते हैं।
एक पूरी तरह से AI द्वारा निर्मित दृश्य। इस दृश्य में हर मॉडल Meshy-1 Text to 3D का उपयोग करके उत्पन्न किया गया है।एक सामान्य Meshy-1 नींव पर निर्माण करते हुए, तीनों मोड साझा सुविधाएँ प्रदान करते हैं जो पहले से मौजूद उत्पादों में उपलब्ध नहीं थीं:
30x तेज़। मौजूदा उत्पाद उपयोगकर्ताओं को घंटों तक प्रतीक्षा करवा सकते हैं, और हमें लगता है कि यह अस्वीकार्य है। Meshy-1 इस प्रक्रिया में क्रांति लाता है और एक मिनट के भीतर परिणाम देता है[4]। न केवल यह उपयोगकर्ता अनुभव और उत्पादकता को बढ़ाता है, बल्कि Meshy-1 की उल्लेखनीय दक्षता हमें उपयोगकर्ता-पक्ष प्रति निर्माण लागत को काफी हद तक कम करने की अनुमति देती है।
वर्कफ़्लो फ्रेंडली। यह सुनिश्चित करना कि 3D मॉडल डाउनस्ट्रीम अनुप्रयोगों में उपयोग के लिए तैयार हैं, महत्वपूर्ण है। हम glb, usdz और fbx जैसे आउटपुट प्रारूपों का समर्थन करते हैं। हम अगले सप्ताह एक Unity प्लगइन लॉन्च कर रहे हैं, बाद में Blender और UE प्लगइन्स आ रहे हैं। हम वेब ऐप में पॉलीकाउंट नियंत्रण का विकल्प जोड़ने की भी योजना बना रहे हैं, जो आपको पॉलीकाउंट को कम करने की अनुमति देता है।
उच्च गुणवत्ता वाली टेक्सचर। Meshy-1 टेक्सचर गुणवत्ता में एक सफलता प्रदान करता है।
- 4K रिज़ॉल्यूशन। रिज़ॉल्यूशन मायने रखता है, और Meshy-1 टेक्सचर तीखे और स्पष्ट हैं।
- PBR चैनल। फिजिकली बेस्ड रेंडरिंग (PBR) गेम्स और फिल्मों में महत्वपूर्ण हो गया है, और Meshy-1 धातु, खुरदरापन और सामान्य नक्शे को भौतिक यथार्थवाद के लिए आउटपुट करता है।
- Text to Texture के लिए बहु सामग्री समर्थन। जब आप किसी मौजूदा 3D मॉडल के लिए टेक्सचर उत्पन्न कर रहे होते हैं, तो अक्सर ऐसा होता है कि आपके मॉडल में कई UV सेट और टेक्सचर मैप्स के कई समूह होते हैं। हमारा टेक्स्ट-टू-टेक्सचर मोड ऐसे मामलों का अच्छी तरह से समर्थन करता है।
शैली नियंत्रण। Meshy-1 के Text to 3D और Text to Texture मोड में, आप अपनी पीढ़ी के लिए विभिन्न कलात्मक शैलियों में से चुन सकते हैं, जिनमें यथार्थवादी, कार्टून, एनीमे, कॉमिक और अधिक शामिल हैं। यह आपको कला शैली पर पर्याप्त नियंत्रण प्रदान करता है, जो केवल पाठ्य संकेतों से परे हो सकता है।
इसका उपयोग कैसे करें?
Meshy-1 हमारे वेब ऐप और Discord दोनों पर आसानी से उपलब्ध है। जबकि प्लेटफार्मों पर समान कार्यक्षमताएँ प्रदान की जाती हैं, कुछ विशेषताएँ ध्यान देने योग्य हैं:
- Discord असीमित मुफ्त पीढ़ियाँ प्रदान करता है, हालांकि आपकी रचनाएँ जनरेशन चैनल पर सार्वजनिक रूप से दिखाई देती हैं।
- वेब ऐप प्रतिदिन 20 मुफ्त पीढ़ियाँ देता है और अतिरिक्त क्षमताएँ जोड़ता है जैसे कार्य कतारबद्ध करना, PBR चैनल, शैली नियंत्रण, लिंक साझा करना, और आपके जनरेशन कार्यक्षेत्र का प्रबंधन।
नवीनतम Text to Texture और Image to 3D सुविधाएँ Discord और वेब ऐप दोनों पर आसानी से उपयोग की जा सकती हैं। आप आज Discord पर अपडेटेड Text to 3D पा सकते हैं, और यह कुछ हफ्तों में वेब ऐप पर उपलब्ध होगा। तो वास्तविक दुनिया में इन विशेषताओं का उपयोग कैसे करें? प्रारंभिक उपयोगकर्ताओं के माध्यम से हमने प्रभावी 3D जनरेशन के लिए पैटर्न पाए हैं: प्रॉप्स (पर्यावरण कला) के लिए Text to 3D का उपयोग करें, और पात्रों के लिए Image to 3D का।
प्रॉप्स के लिए Text to 3D। बस एक टेक्स्ट प्रॉम्प्ट दर्ज करें और Meshy-1 को आपके विवरण के अनुसार मॉडल बनाने दें, जो गेम्स में पर्यावरणीय संपत्तियों या "प्रॉप्स" को उत्पन्न करने के लिए आदर्श है। हमारे स्टाइल विकल्प का उपयोग करके एकसमान शैली सुनिश्चित करें।
न्यूयॉर्क में स्थित वरिष्ठ UE कलाकार RenderMan द्वारा निर्मित दृश्य, जिसमें सब कुछ Meshy-1 Text to 3D का उपयोग करके उत्पन्न किया गया है।पात्रों के लिए Image to 3D। एक फ्रंट व्यू इमेज का उपयोग करें, जिसमें Midjourney या Stable Diffusion से ली गई इमेज भी शामिल हैं, और Meshy-1 इसे एक 3D मॉडल में परिवर्तित करेगा। Image to 3D सुविधा मजबूत आउटपुट नियंत्रण सुनिश्चित करती है, आपके 2D इनपुट का एक वास्तविक 3D प्रतिनिधित्व बनाती है, जो प्रारंभिक उपयोगकर्ताओं के बीच पात्र निर्माण के लिए पसंदीदा है।
टोक्यो में CG कलाकार Samuel द्वारा निर्मित दृश्य, Meshy प्रारंभिक उपयोगकर्ता। सभी पात्र Meshy-1 Image to 3D का उपयोग करके उत्पन्न किए गए हैं और फिर Mixamo का उपयोग करके एनिमेट किए गए हैं।उपयुक्त छवियों का चयन कैसे करें? फ्रंट व्यू को प्राथमिकता दें (कैमरा सीधे पात्र के सामने स्थित हो) और एक साफ पृष्ठभूमि।
Text to Texture का उपयोग करके मॉडल्स को पुनः बनाएं। हमारे परीक्षण किए गए Text to Texture मोड का उपयोग करके, आप आसानी से मौजूदा मॉडलों की बनावट बना या बदल सकते हैं, विशेष रूप से AI द्वारा उत्पन्न किए गए।
क्षितिज से परे
हमारा उद्देश्य Meshy को 3D GenAI में प्रमुख मंच के रूप में स्थापित करना है। जबकि Meshy-1 एक महत्वपूर्ण कदम आगे है, यह अंतिम अध्याय नहीं है। वास्तव में, 3D के लिए GenAI की तकनीकी प्रगति टेक्स्ट या छवियों के लिए GenAI की तुलना में पीछे है। इसका कारण यह है कि 3D अधिक आयाम और जटिलताएं पेश करता है। इसलिए 3D GenAI उत्पादों को वास्तव में उत्पादन गुणवत्ता तक पहुंचने में समय लगता है।
Meshy-1 आउटपुट को अनुकूलित करने के अलावा, हम अपने उत्पाद रोडमैप के लिए निम्नलिखित मार्गों का पता लगा रहे हैं, जो हमारे उपयोगकर्ता प्रतिक्रिया और सीखने द्वारा निर्देशित हैं,
बेहतर मेष गुणवत्ता। जनरेटिव AI की वर्तमान सीमाएं, जैसे उच्च पॉलीकाउंट्स (आमतौर पर 100K+), खराब UV अनव्रैपिंग गुणवत्ता, और चौकोर चेहरों की कमी, उत्पादन-तैयार संपत्तियों को उत्पन्न करने में इसकी शक्ति को सीमित करती हैं। इन बाधाओं को संबोधित करना महत्वपूर्ण है, विशेष रूप से एनीमेशन में चौकोर चेहरों की उद्योग की प्राथमिकता और मोबाइल गेमिंग के लिए कम पॉलीकाउंट मॉडल को देखते हुए।
संवादी पुनरावृत्तियाँ। जैसे-जैसे उपयोगकर्ता Maya और 3Ds Max जैसे पारंपरिक 3D मॉडलिंग सॉफ़्टवेयर से दूर होते जा रहे हैं, वे AI-जनित आउटपुट पर बढ़ा हुआ नियंत्रण चाहते हैं। उपयोगकर्ताओं को पुनरावृत्त परिशोधन क्षमताओं के साथ सशक्त बनाना सहायक है, जो ChatGPT-शैली की बहु-राउंड बातचीत की याद दिलाता है।
वर्धित नियंत्रण। उदाहरण के लिए, उपयोगकर्ता कई 2D दृष्टिकोणों से, जैसे फ्रंट, साइड, और बैक व्यू से 3D मॉडल बनाना चाहते हैं। छवि से 3D के लिए, हमें लगता है कि मल्टी-व्यू जनरेशन एक महत्वपूर्ण दिशा है।
शैली संगति के साथ आउटपुट। शैलीगत रेंडरिंग में संगति एक आवर्ती उपयोगकर्ता मांग है, जो मॉडलों को एक निर्दिष्ट दृश्य थीम का पालन करने की आवश्यकता पर जोर देती है। अंत में, पूरे Meshy AI टीम के लिए हार्दिक सराहना और बधाई। हमारी वर्तमान सफलता हर किसी की अटल प्रतिबद्धता और प्रयासों का प्रमाण है। जैसे ही हम आगे की ओर देखते हैं, क्षितिज आशाजनक है, और मुझे कोई संदेह नहीं है कि हम मिलकर नवाचार और उत्कृष्टता जारी रखेंगे। जुड़े रहें, क्योंकि हम कुछ और भी उल्लेखनीय का अनावरण करने के कगार पर हैं!
[1]Meshy यात्रा शुरू करने से पहले, मैंने MIT में CG & AI में अपनी पीएच.डी. पूरी की, SIGGRAPH और ICLR जैसे प्रसिद्ध सम्मेलनों में प्रकाशित शोध में योगदान दिया। अपनी डॉक्टरेट की पढ़ाई 3.5 वर्षों में पूरी करने के बाद, मैंने अगले 2.5 वर्षों को एक स्टार्टअप संस्थापक के रूप में बिताया, जिससे मुझे अपने शैक्षणिक ज्ञान को वास्तविक दुनिया के उत्पादों के निर्माण के व्यावहारिक पहलुओं के साथ जोड़ने का अवसर मिला, इस गतिशील क्षेत्र में सीखते और बढ़ते हुए।
[2]हम क्यों? Meshy टीम में MIT, Harvard, NVIDIA, Microsoft, Google, और Meta जैसे प्रतिष्ठित संस्थानों और कंपनियों के विशेषज्ञ शामिल हैं, जिनके पास कंप्यूटर ग्राफिक्स, AI, GPUs, डिफरेंशिएबल प्रोग्रामिंग, और क्लाउड कंप्यूटिंग में गहन ज्ञान है। हमने पहले डेवलपर और उपयोगकर्ता-केंद्रित उत्पाद बनाए हैं जिन्हें हमारे उपयोगकर्ता आधार द्वारा स्वीकार किया गया है। ये अनुभव एक 3D जनरेटिव AI उत्पाद को तैयार करने के लिए एक ठोस आधार प्रदान करते हैं।
[3]हमने मार्च 2023 में Meshy Texturer नामक एक टूल लॉन्च किया, लेकिन अब Meshy-1 यहाँ है एक उन्नत Text to Texture के साथ। आप Meshy Texturer को हमारे Text to 3D और Image to 3D मोड के साथ जोड़ सकते हैं, जिससे आप AI-जनित आउटपुट पर बनावट को बारीकी से समायोजित कर सकते हैं।
[4]लैब सेटिंग में प्राप्त डेटा। उच्च सर्वर लोड की अवधि के दौरान, प्रतीक्षा समय एक मिनट से अधिक हो सकता है।