วิสัยทัศน์ของเราคือการเสริมพลังให้ทุกคนสามารถทำให้จินตนาการ 3 มิติของพวกเขากลายเป็นจริงได้ นั่นคือเหตุผลที่เราสร้าง Meshy-1 ซึ่งเป็น AI สร้างสรรค์ที่รวดเร็วสำหรับ 3D เพื่อเสริมพลังให้กับผู้สร้างเนื้อหาในการเปลี่ยนข้อความและภาพให้กลายเป็นโมเดล 3 มิติที่น่าดึงดูดในเวลาเพียงไม่ถึงนาที
ในบล็อกนี้ เรารู้สึกตื่นเต้นที่จะเปิดเผยเรื่องราวเบื้องหลัง Meshy-1 และความสามารถของมัน[] เตรียมตัวให้พร้อมที่จะทึ่ง!
ทำไม GenAI สำหรับ 3D ถึงมีความสำคัญ (และยาก)?
การเพิ่มขึ้นของเนื้อหา 3D แบบอินเทอร์แอคทีฟ โดยเฉพาะในอุตสาหกรรมเกม ภาพยนตร์ และ XR ได้เพิ่มความต้องการสำหรับโมเดล 3D ผู้สร้างที่มีความเชี่ยวชาญต้องเผชิญกับเวลาการผลิตที่ยาวนาน ในขณะที่ผู้สร้างทั่วไปต้องดิ้นรนกับเครื่องมือที่ซับซ้อนเช่น Maya หรือ Blender ช่องว่างนี้ที่ถูกขยายโดยอุปสรรคด้านต้นทุนและความซับซ้อน เรียกร้องให้มีการแก้ปัญหา
ตอนนี้ เป็นช่วงเวลาสำคัญ ด้วยการเปิดตัว Vision Pro ของ Apple และ Meta ที่แนะนำ Quest 3 ควบคู่ไปกับการพัฒนาอย่างรวดเร็วของเทคโนโลยี AI สร้างสรรค์และตลาดเกมที่กำลังเติบโต ความคาดหวังร่วมกันสำหรับ AI สร้างสรรค์ 3D ที่ล้ำสมัยนั้นชัดเจนและพร้อมที่จะกลายเป็นจริง
ในยุคที่น่าตื่นเต้นของ AI สร้างสรรค์นี้ ผลิตภัณฑ์ที่ทรงพลังหลายอย่างกำลังเกิดขึ้นในรูปแบบต่าง ๆ ตัวอย่างเช่น เราเห็น ChatGPT สำหรับข้อความ Midjourney สำหรับภาพ และ Runway สำหรับวิดีโอ
แม้ว่าจะดูเหมือนมีเหตุผลที่จะสันนิษฐานว่าการสร้าง 3D เป็นก้าวถัดไปที่กำลังจะเกิดขึ้น แต่ที่น่าสนใจคือยังไม่มีผู้นำที่ชัดเจนในด้านนี้ ส่วนใหญ่เป็นเพราะสูตรในการสร้างผลิตภัณฑ์ที่ใช้งานง่ายยังไม่ถูกค้นพบ ทำไมถึงเป็นเช่นนี้?
การเดินทางของฉันทั้งในวงการวิชาการและอุตสาหกรรม [1] ให้มุมมองในเหตุผลเบื้องหลังนี้
ความท้าทายที่ 1: การแลกเปลี่ยนระหว่างคุณภาพและความเร็ว ปัจจุบันมีสองวิธีหลักในขอบเขตของ 3D GenAI:
- 2D Lifting: การยกระดับโมเดลสร้างสรรค์ 2D (เช่น Stable Diffusion) ไปสู่ 3D โดยใช้เทคนิคการเพิ่มประสิทธิภาพแบบวนซ้ำที่ใช้กับโครงสร้างเช่น NeRFs วิธีการเหล่านี้ใช้ข้อมูล 2D จำนวนมากและสามารถสร้างโมเดล 3D ที่มีคุณภาพดีได้หลากหลาย แต่ช้าและอาจใช้เวลาหลายชั่วโมงแม้จะใช้ GPU ที่เร็วอย่าง RTX 3080
- 3D Diffusion: วิธีการนี้ลดเวลาการสร้างลงอย่างมากเหลือน้อยกว่า 1 นาทีต่อโมเดล เนื่องจากมีข้อมูลการฝึกอบรม 3D ไม่มาก โมเดลที่สร้างด้วยวิธีนี้มักขาดคุณภาพที่ดี
วิธีการปัจจุบันช้าเกินไปหรือขาดคุณภาพที่ต้องการ ขัดขวางการพัฒนาผลิตภัณฑ์ที่มีประสิทธิภาพ Meshy มุ่งมั่นที่จะเป็นทั้งเร็วและมีคุณภาพสูง
นั่นคือเหตุผลที่ไม่มีผลิตภัณฑ์ 3D GenAI มากนัก การใช้ 3D diffusion ส่งผลให้คุณภาพต่ำ ในขณะที่ 2D lifting ทำให้ผู้ใช้ต้องรอนานและมีค่าใช้จ่ายเซิร์ฟเวอร์สูง ทีมงานของเราทำงานหนักเพื่อรวมข้อดีของทั้งสองวิธีและเอาชนะการแลกเปลี่ยนระหว่างคุณภาพและความเร็ว สร้างผลิตภัณฑ์ที่ให้ผู้ใช้สามารถเปลี่ยนข้อความ/ภาพเป็นโมเดล 3D ที่ดี ในเวลาน้อยกว่าหนึ่งนาที
ความท้าทายที่ 2: ช่องว่างระหว่างนวัตกรรมทางวิชาการและความต้องการของผู้ใช้ ผลิตภัณฑ์ที่เน้นผู้ใช้เป็นศูนย์กลางต้องการมากกว่าแค่อัลกอริทึมและน้ำหนักของเครือข่ายประสาท มันจำเป็นต้องมีอินเทอร์เฟซผู้ใช้ที่ใช้งานง่ายและการผสานรวมที่ราบรื่นกับเครื่องมือที่แพร่หลายเช่น Unity และ Blender นอกจากนี้ยังต้องมีการจัดการ polycounts ที่เหมาะสมสำหรับการเล่นเกมบนมือถือและให้การควบคุมเนื้อหา/สไตล์ที่มีประสิทธิภาพเพื่อทำให้ไอเดียของผู้ใช้กลายเป็นจริงได้อย่างแท้จริง แม้ว่าการทำให้เป็นผลิตภัณฑ์ไม่ใช่วิทยาศาสตร์จรวด แต่มันต้องการความเข้าใจเชิงลึกเกี่ยวกับผลิตภัณฑ์และความเข้าใจอย่างลึกซึ้งในอุตสาหกรรม CG เพื่อพัฒนา [2]
Meshy-1: 3D GenAI ที่รวดเร็วและยอดเยี่ยม
ดังที่ได้กล่าวไว้ก่อนหน้านี้ หากกระบวนการสร้างใช้เวลาหลายชั่วโมง มันจะกลายเป็นเรื่องท้าทายในการสร้างผลิตภัณฑ์ที่สามารถขยายไปยังผู้ใช้หลายร้อยคนได้ ดังนั้นในฐานะผู้สร้าง จึงเป็นเรื่องเร่งด่วนที่จะต้องแก้ไขปัญหาความเร็วเป็นอันดับแรก
แนะนำ Meshy-1, AI สร้างสรรค์ 3D ที่รวดเร็ว ช่วยให้ผู้สร้างเนื้อหาสามารถเปลี่ยน ข้อความ และ ภาพ ให้กลายเป็นโมเดล 3D ที่น่าดึงดูดใจในเวลาเพียง ไม่ถึงนาที Meshy-1 มีโหมดที่ใช้งานง่ายสามโหมด:
- Text to 3D: คำเข้า โมเดล 3D ออก
- Image to 3D: ภาพที่ให้ โมเดล 3D ที่ผลิต
- Text to Texture: สร้างพื้นผิวให้โมเดลของคุณด้วยคำอธิบายข้อความง่ายๆ [3]
ทั้งสามโหมดทำงานได้อย่างรวดเร็วและให้ผลลัพธ์ในเวลาไม่ถึง 60 วินาที
ฉากที่สร้างขึ้นโดย AI ทั้งหมด โมเดลทุกชิ้นในฉากนี้ถูกสร้างขึ้นโดยใช้ Meshy-1 Text to 3D.ด้วยการสร้างบนพื้นฐาน Meshy-1 ที่เป็นที่รู้จัก โหมดทั้งสามนี้มีคุณสมบัติร่วมกันที่ไม่เคยมีมาก่อนในผลิตภัณฑ์ที่มีอยู่:
เร็วขึ้น 30 เท่า. ผลิตภัณฑ์ที่มีอยู่สามารถทำให้ผู้ใช้ต้องรอเป็นชั่วโมง และเราเชื่อว่านั่นเป็นสิ่งที่ยอมรับไม่ได้ Meshy-1 ปฏิวัติกระบวนการนี้โดยให้ผลลัพธ์ในเวลาไม่ถึงนาที[4] ไม่เพียงแต่จะเพิ่มประสบการณ์และประสิทธิภาพของผู้ใช้ แต่ความมีประสิทธิภาพที่น่าทึ่งของ Meshy-1 ยังช่วยให้เราลดต้นทุนต่อการสร้างของผู้ใช้ได้อย่างมาก
เป็นมิตรกับการทำงาน. การทำให้โมเดล 3D พร้อมใช้งานในแอปพลิเคชันต่อเนื่องเป็นสิ่งสำคัญ เราสนับสนุนรูปแบบการส่งออกเช่น glb, usdz และ fbx เรากำลังเปิดตัวปลั๊กอิน Unity ในสัปดาห์หน้า และปลั๊กอิน Blender & UE จะตามมาในภายหลัง เรายังวางแผนที่จะเพิ่มตัวเลือกการควบคุมจำนวนโพลี ที่ช่วยให้คุณลดจำนวนโพลีในเว็บแอปได้
พื้นผิวคุณภาพสูง. Meshy-1 นำเสนอความก้าวหน้าในคุณภาพของพื้นผิว
- ความละเอียด 4K. ความละเอียดมีความสำคัญ และพื้นผิวของ Meshy-1 คมชัดอย่างยิ่ง
- ช่อง PBR. การเรนเดอร์ที่ใช้ฟิสิกส์ (PBR) ได้กลายเป็นสิ่งสำคัญในเกมและภาพยนตร์ และ Meshy-1 ให้ผลลัพธ์เป็นแผนที่โลหะ, ความหยาบ, และแผนที่ปกติสำหรับความสมจริงทางกายภาพ
- รองรับวัสดุหลายชนิดสำหรับ Text to Texture. เมื่อคุณกำลังสร้างพื้นผิวสำหรับโมเดล 3D ที่มีอยู่ มักจะเป็นกรณีที่โมเดลของคุณมีชุด UV หลายชุดและกลุ่มแผนที่พื้นผิวหลายกลุ่ม โหมด text-to-texture ของเราสนับสนุนกรณีดังกล่าวได้ดี
การควบคุมสไตล์. ในโหมด Text to 3D และ Text to Texture ของ Meshy-1 คุณสามารถเลือกจากสไตล์ศิลปะที่หลากหลายสำหรับการสร้างของคุณ รวมถึงสไตล์สมจริง การ์ตูน อนิเมะ การ์ตูน และอื่นๆ สิ่งนี้ให้การควบคุมสไตล์ศิลปะอย่างมากเกินกว่าที่คำสั่งข้อความเพียงอย่างเดียวจะอนุญาต
วิธีการใช้งาน?
Meshy-1 สามารถเข้าถึงได้ง่ายทั้งบนเว็บแอปและ Discord ในขณะที่เสนอฟังก์ชันการทำงานที่คล้ายกันในทุกแพลตฟอร์ม แต่ก็มีคุณสมบัติที่แตกต่างกันให้สังเกต:
- Discord ให้การสร้างฟรีไม่จำกัด แต่การสร้างของคุณจะมองเห็นได้สาธารณะในช่องการสร้าง
- เว็บแอป ให้การสร้างฟรี 20 ครั้งต่อวันและเพิ่มความสามารถเพิ่มเติมเช่นการจัดคิวงาน ช่อง PBR การควบคุมสไตล์ การแชร์ลิงก์ และการจัดการพื้นที่ทำงานของการสร้างของคุณ
ฟีเจอร์ Text to Texture และ Image to 3D ล่าสุดสามารถใช้งานได้ทั้งบน Discord และเว็บแอป คุณสามารถหา Text to 3D ที่อัปเดตแล้วบน Discord ได้วันนี้ และจะพร้อมใช้งานบนเว็บแอปในอีกไม่กี่สัปดาห์ แล้วจะใช้คุณสมบัติเหล่านี้ในโลกจริงได้อย่างไร? ผ่านผู้ใช้กลุ่มแรก เราพบรูปแบบที่มีประสิทธิภาพในการสร้าง 3D: ใช้ Text to 3D สำหรับอุปกรณ์ประกอบฉาก (ศิลปะสิ่งแวดล้อม) และ Image to 3D สำหรับตัวละคร
Text to 3D สำหรับอุปกรณ์ประกอบฉาก เพียงแค่ใส่ข้อความที่ต้องการและให้ Meshy-1 สร้างโมเดลตามคำอธิบายของคุณ ซึ่งเหมาะสำหรับการสร้างทรัพย์สินสิ่งแวดล้อมหรือ "อุปกรณ์ประกอบฉาก" ในเกม ตรวจสอบให้แน่ใจว่ามีสไตล์ที่สม่ำเสมอโดยใช้ตัวเลือกสไตล์ของเรา
ฉากที่สร้างโดย RenderMan, ศิลปิน UE อาวุโสในนิวยอร์ก, ทุกอย่างสร้างขึ้นโดยใช้ Meshy-1 Text to 3D.Image to 3D สำหรับตัวละคร ใช้ภาพมุมมองด้านหน้า รวมถึงภาพจาก Midjourney หรือ Stable Diffusion และ Meshy-1 จะยกระดับให้เป็นโมเดล 3D ฟีเจอร์ Image to 3D ช่วยให้ควบคุมผลลัพธ์ได้อย่างดี สร้างการแสดงผล 3D ที่แท้จริงจากข้อมูล 2D ของคุณ ทำให้เป็นที่ชื่นชอบในหมู่ผู้ใช้กลุ่มแรกสำหรับการสร้างตัวละคร
ฉากโดย Samuel, ศิลปิน CG ในโตเกียว, ผู้ใช้กลุ่มแรกของ Meshy. ตัวละครทั้งหมดสร้างขึ้นโดยใช้ Meshy-1 Image to 3D และจากนั้นถูกทำให้เคลื่อนไหวโดยใช้ Mixamo.จะเลือกภาพที่เหมาะสมได้อย่างไร? ควรเลือกภาพมุมมองด้านหน้า (โดยที่กล้องอยู่ตรงหน้าตัวละคร) และมีพื้นหลังที่สะอาด
ปรับพื้นผิวโมเดลโดยใช้ Text to Texture ใช้โหมด Text to Texture ที่ผ่านการทดสอบของเรา คุณสามารถสร้างหรือเปลี่ยนพื้นผิวของโมเดลที่มีอยู่ได้อย่างง่ายดาย โดยเฉพาะโมเดลที่สร้างโดย AI
Beyond the Horizon
เป้าหมายของเราคือการสร้าง Meshy ให้เป็นแพลตฟอร์มชั้นนำใน 3D GenAI แม้ว่า Meshy-1 จะเป็นก้าวสำคัญไปข้างหน้า แต่มันไม่ใช่บทสุดท้าย ในความเป็นจริง การพัฒนาเทคโนโลยี GenAI สำหรับ 3D ยังคงล้าหลังกว่า GenAI สำหรับข้อความหรือภาพ เนื่องจาก 3D มีมิติและความซับซ้อนมากขึ้น ดังนั้นจึงต้องใช้เวลาสำหรับผลิตภัณฑ์ 3D GenAI ที่จะตอบสนองคุณภาพการผลิตจริง
นอกจากการปรับปรุงผลลัพธ์ของ Meshy-1 แล้ว เรายังสำรวจแนวทางต่อไปนี้สำหรับแผนงานผลิตภัณฑ์ของเรา โดยได้รับคำแนะนำจากความคิดเห็นของผู้ใช้และการเรียนรู้ของเรา
ปรับปรุงคุณภาพตาข่าย ข้อจำกัดปัจจุบันของ AI สร้างสรรค์ เช่น จำนวนโพลีสูง (ปกติ 100K+), คุณภาพการคลี่ UV ที่ไม่ดี, และการขาดหน้าสี่เหลี่ยม ได้จำกัดความสามารถในการสร้างทรัพย์สินที่พร้อมสำหรับการผลิต การแก้ไขข้อจำกัดเหล่านี้เป็นสิ่งสำคัญ โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงความชอบของอุตสาหกรรมสำหรับหน้าสี่เหลี่ยมในการเคลื่อนไหวและโมเดลที่มีจำนวนโพลีน้อยสำหรับเกมมือถือ
การทำซ้ำแบบสนทนา เมื่อผู้ใช้เริ่มห่างจากซอฟต์แวร์การสร้างโมเดล 3D แบบดั้งเดิมเช่น Maya และ 3Ds Max พวกเขาต้องการการควบคุมที่เพิ่มขึ้นเหนือผลลัพธ์ที่สร้างโดย AI การให้ผู้ใช้มีความสามารถในการปรับปรุงแบบวนซ้ำ ซึ่งคล้ายกับการโต้ตอบหลายรอบแบบ ChatGPT เป็นประโยชน์
การควบคุมที่เพิ่มขึ้น ตัวอย่างเช่น ผู้ใช้ต้องการสร้างโมเดล 3D โดยการสร้างจากมุมมอง 2D หลายมุม เช่น มุมมองด้านหน้า ด้านข้าง และด้านหลัง สำหรับภาพไปยัง 3D เราเชื่อว่าการสร้างหลายมุมมองเป็นทิศทางที่สำคัญ
ผลลัพธ์ที่มีความสม่ำเสมอในสไตล์ ความสม่ำเสมอในการแสดงผลสไตล์เป็นความต้องการที่เกิดซ้ำจากผู้ใช้ โดยเน้นถึงความจำเป็นที่โมเดลจะต้องยึดตามธีมภาพที่กำหนด ในที่สุด ขอแสดงความขอบคุณอย่างจริงใจและชื่นชมทีม Meshy AI ทั้งหมด ความสำเร็จในปัจจุบันของเราเป็นข้อพิสูจน์ถึงความมุ่งมั่นและความพยายามที่ไม่หยุดยั้งของทุกคน เมื่อเรามองไปข้างหน้า อนาคตดูสดใส และฉันไม่มีข้อสงสัยว่าเราจะยังคงสร้างสรรค์และยอดเยี่ยมต่อไป ร่วมกันอยู่เสมอ เพราะเรากำลังจะเปิดเผยสิ่งที่น่าทึ่งยิ่งขึ้น!
[1]ก่อนที่จะเริ่มการเดินทางกับ Meshy ฉันสำเร็จการศึกษาปริญญาเอกในสาขา CG & AI ที่ MIT โดยมีส่วนร่วมในงานวิจัยที่ตีพิมพ์ในงานประชุมที่มีชื่อเสียงเช่น SIGGRAPH และ ICLR หลังจากจบการศึกษาปริญญาเอกในเวลา 3.5 ปี ฉันได้ใช้เวลา 2.5 ปีต่อมาในฐานะผู้ก่อตั้งสตาร์ทอัพ ทำให้ฉันสามารถเชื่อมโยงความรู้ทางวิชาการกับแง่มุมการปฏิบัติของการสร้างผลิตภัณฑ์ในโลกจริง ทั้งหมดนี้ในขณะที่ยังคงเรียนรู้และเติบโตในสาขาที่เปลี่ยนแปลงอย่างรวดเร็วนี้
[2]ทำไมต้องเรา? ทีม Meshy ประกอบด้วยผู้เชี่ยวชาญจากสถาบันและบริษัทที่มีชื่อเสียงเช่น MIT, Harvard, NVIDIA, Microsoft, Google, และ Meta ที่มีความรู้ลึกซึ้งในด้านกราฟิกคอมพิวเตอร์, AI, GPUs, การโปรแกรมที่แตกต่างได้, และการประมวลผลบนคลาวด์ เราเคยสร้างผลิตภัณฑ์ที่เน้นนักพัฒนาและผู้ใช้ที่ได้รับการตอบรับจากฐานผู้ใช้ของเรา ประสบการณ์เหล่านี้ให้ฐานที่มั่นคงสำหรับการสร้างผลิตภัณฑ์ AI สร้างสรรค์ 3D
[3]เราเปิดตัวเครื่องมือที่เรียกว่า Meshy Texturer ในเดือนมีนาคม 2023 แต่ตอนนี้ Meshy-1 มาพร้อมกับ Text to Texture ที่อัปเกรดแล้ว คุณสามารถจับคู่ Meshy Texturer กับโหมด Text to 3D และ Image to 3D ของเรา เพื่อให้คุณสามารถปรับแต่งพื้นผิวบนผลลัพธ์ที่สร้างโดย AI ได้อย่างละเอียด
[4]ข้อมูลที่ได้มาจากการตั้งค่าในห้องปฏิบัติการ ในช่วงที่เซิร์ฟเวอร์มีการใช้งานสูง เวลารออาจเกินหนึ่งนาที