घोषणाएं

Meshy-1: AI के साथ सिर्फ एक मिनट में 3D मॉडल जनरेट करें

हमारा दृष्टिकोण है कि हम सभी को उनकी 3D कल्पनाओं को साकार करने के लिए सशक्त बनाएं। इसी कारण हमने Meshy-1 का निर्माण किया, जो 3D के लिए एक तेज़ जनरेटिव AI है, जो सामग्री निर्माताओं को टेक्स्ट और छवियों को आकर्षक 3D मॉडलों में बदलने की शक्ति देता है, और वह भी केवल एक मिनट से कम समय में। इस ब्लॉग में, हम Meshy-1 के पीछे की कहानी और इसकी क्षमताओं को उजागर करने के लिए उत्साहित हैं। तैयार हो जाइए, आपको आश्चर्यचकित करने के लिए!

Ethan
पोस्ट किया गया: 19 अक्तूबर 2023

हमारा दृष्टिकोण हर किसी को उनकी 3D कल्पनाओं को साकार करने के लिए सशक्त बनाना है। इसी कारण हमने Meshy-1 का निर्माण किया, जो 3D के लिए एक तेज़ जनरेटिव AI है, जो सामग्री निर्माताओं को टेक्स्ट और छवियों को आकर्षक 3D मॉडलों में बदलने की शक्ति देता है, वह भी एक मिनट से कम समय में।

इस ब्लॉग में, हम Meshy-1 के पीछे की कहानी और इसकी क्षमताओं का अनावरण करने के लिए उत्साहित हैं। तैयार हो जाइए, चकित होने के लिए!

3D के लिए GenAI क्यों महत्वपूर्ण (और कठिन) है?

खेल, फिल्म और XR उद्योगों में विशेष रूप से 3D इंटरैक्टिव सामग्री में वृद्धि ने 3D मॉडलों की मांग को बढ़ा दिया है। विशेषज्ञ निर्माताओं को लंबा उत्पादन समय लगता है, जबकि आकस्मिक निर्माता Maya या Blender जैसे जटिल उपकरणों के साथ संघर्ष करते हैं। लागत और जटिलता की बाधाओं से बढ़ी हुई इस खाई के लिए एक समाधान की आवश्यकता है।

अब यह निर्णायक क्षण है। Apple के Vision Pro के अनावरण और Meta द्वारा Quest 3 की शुरुआत के साथ, जनरेटिव AI तकनीक की तेजी से प्रगति और एक उभरते हुए गेमिंग बाजार के साथ, एक अभूतपूर्व 3D जनरेटिव AI के लिए सामूहिक प्रत्याशा स्पष्ट और साकार होने के लिए तैयार है।

जनरेटिव AI उत्पादों के विभिन्न रूप, टेक्स्ट, छवि से वीडियो तक, और शायद 3D तक?

जनरेटिव AI के इस रोमांचक युग में, विभिन्न रूपों में कई शक्तिशाली उत्पाद उभर रहे हैं। उदाहरण के लिए, हम टेक्स्ट के लिए ChatGPT, छवियों के लिए Midjourney, और वीडियो के लिए Runway देखते हैं।

जबकि यह 3D जनरेशन को अगला कदम मानना तार्किक लग सकता है, दिलचस्प बात यह है कि इस क्षेत्र में कोई निश्चित नेता नहीं है, मुख्यतः क्योंकि एक उपयोग में आसान उत्पाद बनाने की विधि अभी तक खोजी नहीं गई है। ऐसा क्यों है?

अकादमिक और उद्योग दोनों में मेरी यात्रा [1] इसके पीछे के कारणों को समझने का एक दृष्टिकोण प्रदान करती है।

चुनौती 1: गुणवत्ता और गति के बीच का समझौता। वर्तमान में, 3D GenAI के क्षेत्र में दो प्रमुख दृष्टिकोण हैं:

  • 2D लिफ्टिंग: 2D जनरेटिव मॉडलों (जैसे Stable Diffusion) को 3D में उठाना, NeRFs जैसी संरचनाओं पर लागू पुनरावृत्त अनुकूलन तकनीकों का उपयोग करते हुए। ये विधियाँ बहुत सारे 2D डेटा का उपयोग करती हैं और विभिन्न अच्छे गुणवत्ता वाले 3D मॉडल बना सकती हैं, लेकिन यह धीमी होती हैं और तेज़ GPUs जैसे RTX 3080 पर भी घंटों लग सकते हैं।
  • 3D डिफ्यूजन: यह दृष्टिकोण मॉडल प्रति कम से कम 1 मिनट के भीतर जनरेशन समय को काफी कम कर देता है। क्योंकि बहुत अधिक 3D प्रशिक्षण डेटा उपलब्ध नहीं है, इस तरह से बनाए गए मॉडलों में अक्सर अच्छी गुणवत्ता की कमी होती है।

गुणवत्ता और गति के बीच का समझौतावर्तमान विधियाँ या तो बहुत धीमी हैं या वांछित गुणवत्ता की कमी है, एक प्रभावी उत्पाद के विकास में बाधा डालती हैं। Meshy का उद्देश्य तेज़ और उच्च गुणवत्ता वाला होना है।

इसीलिए वहाँ बहुत सारे 3D GenAI उत्पाद नहीं हैं। 3D डिफ्यूजन का उपयोग करने से कम गुणवत्ता मिलती है, जबकि 2D लिफ्टिंग उपयोगकर्ताओं के लिए लंबे इंतजार के समय और उच्च सर्वर लागतों की ओर ले जाती है। हमारी टीम ने गुणवत्ता और गति के बीच के समझौते को मात देने और दोनों दृष्टिकोणों के लाभों को मिलाकर एक ऐसा उत्पाद बनाने के लिए कड़ी मेहनत की, जो उपयोगकर्ताओं को टेक्स्ट/छवियों को अच्छे 3D मॉडलों में एक मिनट से कम समय में बदलने की अनुमति देता है।

शोध और उपयोगकर्ता की जरूरतों के बीच की खाई

चुनौती 2: शैक्षणिक नवाचारों और उपयोगकर्ता की जरूरतों के बीच की खाई। एक उपयोगकर्ता-केंद्रित उत्पाद केवल एल्गोरिदम और न्यूरल नेटवर्क वेट्स तक सीमित नहीं होता; इसके लिए सहज उपयोगकर्ता इंटरफेस और Unity और Blender जैसे प्रचलित उपकरणों के साथ सहज एकीकरण की आवश्यकता होती है। इसके अलावा, इसे मोबाइल गेमिंग के लिए उपयुक्त प्रबंधनीय पॉलीकाउंट्स की पेशकश करनी चाहिए और उपयोगकर्ता के विचारों को प्रामाणिक रूप से साकार करने के लिए प्रभावी सामग्री/शैली नियंत्रण प्रदान करना चाहिए। जबकि उत्पादकरण रॉकेट विज्ञान नहीं है, इसके लिए गहन उत्पाद अंतर्दृष्टि और CG उद्योग की गहरी समझ की आवश्यकता होती है। [2]

Meshy-1: 3D GenAI को तेज़ और शानदार बनाया गया

जैसा कि पहले कहा गया था, यदि निर्माण प्रक्रिया घंटों तक चलती है, तो सैकड़ों उपयोगकर्ताओं तक भी स्केल करने वाला उत्पाद बनाना चुनौतीपूर्ण हो जाता है। इसलिए एक निर्माता के रूप में, गति समस्या को पहले हल करना अत्यावश्यक है।

Meshy feature bento grid

Meshy-1 को प्रस्तुत करते हुए, एक तेज़ 3D जनरेटिव AI, जो सामग्री निर्माताओं को पाठ और छवियों को आकर्षक 3D मॉडलों में केवल एक मिनट के भीतर बदलने का सामर्थ्य देता है। Meshy-1 के तीन उपयोग में आसान मोड हैं:

  1. Text to 3D: शब्द अंदर, 3D मॉडल बाहर
  2. Image to 3D: चित्र दिए गए, 3D मॉडल तैयार
  3. Text to Texture: अपने मॉडलों को सरल पाठ विवरणों के साथ टेक्सचर करें [3]

सभी तीन मोड तेज़ी से काम करते हैं और आपको 60 सेकंड के भीतर परिणाम देते हैं।

एक पूरी तरह से AI द्वारा निर्मित दृश्य। इस दृश्य में हर मॉडल Meshy-1 Text to 3D का उपयोग करके उत्पन्न किया गया है।

एक सामान्य Meshy-1 नींव पर निर्माण करते हुए, तीनों मोड साझा सुविधाएँ प्रदान करते हैं जो पहले से मौजूद उत्पादों में उपलब्ध नहीं थीं:

30x तेज़। मौजूदा उत्पाद उपयोगकर्ताओं को घंटों तक प्रतीक्षा करवा सकते हैं, और हमें लगता है कि यह अस्वीकार्य है। Meshy-1 इस प्रक्रिया में क्रांति लाता है और एक मिनट के भीतर परिणाम देता है[4]। न केवल यह उपयोगकर्ता अनुभव और उत्पादकता को बढ़ाता है, बल्कि Meshy-1 की उल्लेखनीय दक्षता हमें उपयोगकर्ता-पक्ष प्रति निर्माण लागत को काफी हद तक कम करने की अनुमति देती है।

वर्कफ़्लो फ्रेंडली। यह सुनिश्चित करना कि 3D मॉडल डाउनस्ट्रीम अनुप्रयोगों में उपयोग के लिए तैयार हैं, महत्वपूर्ण है। हम glb, usdz और fbx जैसे आउटपुट प्रारूपों का समर्थन करते हैं। हम अगले सप्ताह एक Unity प्लगइन लॉन्च कर रहे हैं, बाद में Blender और UE प्लगइन्स आ रहे हैं। हम वेब ऐप में पॉलीकाउंट नियंत्रण का विकल्प जोड़ने की भी योजना बना रहे हैं, जो आपको पॉलीकाउंट को कम करने की अनुमति देता है।

Meshy unity plugin screenshot

उच्च गुणवत्ता वाली टेक्सचर। Meshy-1 टेक्सचर गुणवत्ता में एक सफलता प्रदान करता है।

  • 4K रिज़ॉल्यूशन। रिज़ॉल्यूशन मायने रखता है, और Meshy-1 टेक्सचर तीखे और स्पष्ट हैं।
  • PBR चैनल। फिजिकली बेस्ड रेंडरिंग (PBR) गेम्स और फिल्मों में महत्वपूर्ण हो गया है, और Meshy-1 धातु, खुरदरापन और सामान्य नक्शे को भौतिक यथार्थवाद के लिए आउटपुट करता है।
  • Text to Texture के लिए बहु सामग्री समर्थन। जब आप किसी मौजूदा 3D मॉडल के लिए टेक्सचर उत्पन्न कर रहे होते हैं, तो अक्सर ऐसा होता है कि आपके मॉडल में कई UV सेट और टेक्सचर मैप्स के कई समूह होते हैं। हमारा टेक्स्ट-टू-टेक्सचर मोड ऐसे मामलों का अच्छी तरह से समर्थन करता है।

शैली नियंत्रण। Meshy-1 के Text to 3D और Text to Texture मोड में, आप अपनी पीढ़ी के लिए विभिन्न कलात्मक शैलियों में से चुन सकते हैं, जिनमें यथार्थवादी, कार्टून, एनीमे, कॉमिक और अधिक शामिल हैं। यह आपको कला शैली पर पर्याप्त नियंत्रण प्रदान करता है, जो केवल पाठ्य संकेतों से परे हो सकता है।

इसका उपयोग कैसे करें?

Meshy-1 हमारे वेब ऐप और Discord दोनों पर आसानी से उपलब्ध है। जबकि प्लेटफार्मों पर समान कार्यक्षमताएँ प्रदान की जाती हैं, कुछ विशेषताएँ ध्यान देने योग्य हैं:

  • Discord असीमित मुफ्त पीढ़ियाँ प्रदान करता है, हालांकि आपकी रचनाएँ जनरेशन चैनल पर सार्वजनिक रूप से दिखाई देती हैं।
  • वेब ऐप प्रतिदिन 20 मुफ्त पीढ़ियाँ देता है और अतिरिक्त क्षमताएँ जोड़ता है जैसे कार्य कतारबद्ध करना, PBR चैनल, शैली नियंत्रण, लिंक साझा करना, और आपके जनरेशन कार्यक्षेत्र का प्रबंधन।

नवीनतम Text to Texture और Image to 3D सुविधाएँ Discord और वेब ऐप दोनों पर आसानी से उपयोग की जा सकती हैं। आप आज Discord पर अपडेटेड Text to 3D पा सकते हैं, और यह कुछ हफ्तों में वेब ऐप पर उपलब्ध होगा। तो वास्तविक दुनिया में इन विशेषताओं का उपयोग कैसे करें? प्रारंभिक उपयोगकर्ताओं के माध्यम से हमने प्रभावी 3D जनरेशन के लिए पैटर्न पाए हैं: प्रॉप्स (पर्यावरण कला) के लिए Text to 3D का उपयोग करें, और पात्रों के लिए Image to 3D का।

प्रॉप्स के लिए Text to 3D। बस एक टेक्स्ट प्रॉम्प्ट दर्ज करें और Meshy-1 को आपके विवरण के अनुसार मॉडल बनाने दें, जो गेम्स में पर्यावरणीय संपत्तियों या "प्रॉप्स" को उत्पन्न करने के लिए आदर्श है। हमारे स्टाइल विकल्प का उपयोग करके एकसमान शैली सुनिश्चित करें।

न्यूयॉर्क में स्थित वरिष्ठ UE कलाकार RenderMan द्वारा निर्मित दृश्य, जिसमें सब कुछ Meshy-1 Text to 3D का उपयोग करके उत्पन्न किया गया है।

पात्रों के लिए Image to 3D। एक फ्रंट व्यू इमेज का उपयोग करें, जिसमें Midjourney या Stable Diffusion से ली गई इमेज भी शामिल हैं, और Meshy-1 इसे एक 3D मॉडल में परिवर्तित करेगा। Image to 3D सुविधा मजबूत आउटपुट नियंत्रण सुनिश्चित करती है, आपके 2D इनपुट का एक वास्तविक 3D प्रतिनिधित्व बनाती है, जो प्रारंभिक उपयोगकर्ताओं के बीच पात्र निर्माण के लिए पसंदीदा है।

टोक्यो में CG कलाकार Samuel द्वारा निर्मित दृश्य, Meshy प्रारंभिक उपयोगकर्ता। सभी पात्र Meshy-1 Image to 3D का उपयोग करके उत्पन्न किए गए हैं और फिर Mixamo का उपयोग करके एनिमेट किए गए हैं।

उपयुक्त छवियों का चयन कैसे करें? फ्रंट व्यू को प्राथमिकता दें (कैमरा सीधे पात्र के सामने स्थित हो) और एक साफ पृष्ठभूमि।

बेहतर परिणामों के लिए छवि उदाहरण

Text to Texture का उपयोग करके मॉडल्स को पुनः बनाएं। हमारे परीक्षण किए गए Text to Texture मोड का उपयोग करके, आप आसानी से मौजूदा मॉडलों की बनावट बना या बदल सकते हैं, विशेष रूप से AI द्वारा उत्पन्न किए गए।

क्षितिज से परे

3D जनरेटिव AI में Meshy

हमारा उद्देश्य Meshy को 3D GenAI में प्रमुख मंच के रूप में स्थापित करना है। जबकि Meshy-1 एक महत्वपूर्ण कदम आगे है, यह अंतिम अध्याय नहीं है। वास्तव में, 3D के लिए GenAI की तकनीकी प्रगति टेक्स्ट या छवियों के लिए GenAI की तुलना में पीछे है। इसका कारण यह है कि 3D अधिक आयाम और जटिलताएं पेश करता है। इसलिए 3D GenAI उत्पादों को वास्तव में उत्पादन गुणवत्ता तक पहुंचने में समय लगता है।

Meshy-1 आउटपुट को अनुकूलित करने के अलावा, हम अपने उत्पाद रोडमैप के लिए निम्नलिखित मार्गों का पता लगा रहे हैं, जो हमारे उपयोगकर्ता प्रतिक्रिया और सीखने द्वारा निर्देशित हैं,

बेहतर मेष गुणवत्ता। जनरेटिव AI की वर्तमान सीमाएं, जैसे उच्च पॉलीकाउंट्स (आमतौर पर 100K+), खराब UV अनव्रैपिंग गुणवत्ता, और चौकोर चेहरों की कमी, उत्पादन-तैयार संपत्तियों को उत्पन्न करने में इसकी शक्ति को सीमित करती हैं। इन बाधाओं को संबोधित करना महत्वपूर्ण है, विशेष रूप से एनीमेशन में चौकोर चेहरों की उद्योग की प्राथमिकता और मोबाइल गेमिंग के लिए कम पॉलीकाउंट मॉडल को देखते हुए।

संवादी पुनरावृत्तियाँ। जैसे-जैसे उपयोगकर्ता Maya और 3Ds Max जैसे पारंपरिक 3D मॉडलिंग सॉफ़्टवेयर से दूर होते जा रहे हैं, वे AI-जनित आउटपुट पर बढ़ा हुआ नियंत्रण चाहते हैं। उपयोगकर्ताओं को पुनरावृत्त परिशोधन क्षमताओं के साथ सशक्त बनाना सहायक है, जो ChatGPT-शैली की बहु-राउंड बातचीत की याद दिलाता है।

वर्धित नियंत्रण। उदाहरण के लिए, उपयोगकर्ता कई 2D दृष्टिकोणों से, जैसे फ्रंट, साइड, और बैक व्यू से 3D मॉडल बनाना चाहते हैं। छवि से 3D के लिए, हमें लगता है कि मल्टी-व्यू जनरेशन एक महत्वपूर्ण दिशा है।

शैली संगति के साथ आउटपुट। शैलीगत रेंडरिंग में संगति एक आवर्ती उपयोगकर्ता मांग है, जो मॉडलों को एक निर्दिष्ट दृश्य थीम का पालन करने की आवश्यकता पर जोर देती है। अंत में, पूरे Meshy AI टीम के लिए हार्दिक सराहना और बधाई। हमारी वर्तमान सफलता हर किसी की अटल प्रतिबद्धता और प्रयासों का प्रमाण है। जैसे ही हम आगे की ओर देखते हैं, क्षितिज आशाजनक है, और मुझे कोई संदेह नहीं है कि हम मिलकर नवाचार और उत्कृष्टता जारी रखेंगे। जुड़े रहें, क्योंकि हम कुछ और भी उल्लेखनीय का अनावरण करने के कगार पर हैं!

[1]Meshy यात्रा शुरू करने से पहले, मैंने MIT में CG & AI में अपनी पीएच.डी. पूरी की, SIGGRAPH और ICLR जैसे प्रसिद्ध सम्मेलनों में प्रकाशित शोध में योगदान दिया। अपनी डॉक्टरेट की पढ़ाई 3.5 वर्षों में पूरी करने के बाद, मैंने अगले 2.5 वर्षों को एक स्टार्टअप संस्थापक के रूप में बिताया, जिससे मुझे अपने शैक्षणिक ज्ञान को वास्तविक दुनिया के उत्पादों के निर्माण के व्यावहारिक पहलुओं के साथ जोड़ने का अवसर मिला, इस गतिशील क्षेत्र में सीखते और बढ़ते हुए।

[2]हम क्यों? Meshy टीम में MIT, Harvard, NVIDIA, Microsoft, Google, और Meta जैसे प्रतिष्ठित संस्थानों और कंपनियों के विशेषज्ञ शामिल हैं, जिनके पास कंप्यूटर ग्राफिक्स, AI, GPUs, डिफरेंशिएबल प्रोग्रामिंग, और क्लाउड कंप्यूटिंग में गहन ज्ञान है। हमने पहले डेवलपर और उपयोगकर्ता-केंद्रित उत्पाद बनाए हैं जिन्हें हमारे उपयोगकर्ता आधार द्वारा स्वीकार किया गया है। ये अनुभव एक 3D जनरेटिव AI उत्पाद को तैयार करने के लिए एक ठोस आधार प्रदान करते हैं।

[3]हमने मार्च 2023 में Meshy Texturer नामक एक टूल लॉन्च किया, लेकिन अब Meshy-1 यहाँ है एक उन्नत Text to Texture के साथ। आप Meshy Texturer को हमारे Text to 3D और Image to 3D मोड के साथ जोड़ सकते हैं, जिससे आप AI-जनित आउटपुट पर बनावट को बारीकी से समायोजित कर सकते हैं।

[4]लैब सेटिंग में प्राप्त डेटा। उच्च सर्वर लोड की अवधि के दौरान, प्रतीक्षा समय एक मिनट से अधिक हो सकता है।

लेखक के बारे में

Dr. Ethan (Yuanming) Hu is a co-founder and serves as the CEO of Meshy. He obtained his Ph.D. in computer graphics from MIT CSAIL in 2021. His Ph.D. research on differentiable GPU programming languages earned him an honorable mention for the SIGGRAPH 2022 Outstanding Doctoral Dissertation Award. In 2021, Ethan co-founded Meshy, a company focused on CG software. He's currently focused on building Meshy AI, a world-leading platform in 3D GenAI.

Meshy is a global startup headquartered in San Jose, CA.

क्या यह पोस्ट उपयोगी थी?

एक तेज 3D कार्यप्रवाह को अनलॉक करें।

अपनी डिजाइन प्रक्रिया को मेशी के साथ परिवर्तित करें। इसे अब ही आजमाएं और देखें कि आपकी सृजनात्मकता कैसे सहजता से जीवंत होती है!