ประกาศ

Meshy-1: สร้างโมเดล 3D ด้วย AI ในเวลาเพียงหนึ่งนาที

วิสัยทัศน์ของเราคือการเสริมพลังให้ทุกคนสามารถทำให้จินตนาการ 3D ของพวกเขากลายเป็นจริงได้ นั่นคือเหตุผลที่เราสร้าง Meshy-1 ซึ่งเป็น AI สร้างสรรค์สำหรับ 3D ที่รวดเร็ว ช่วยให้ผู้สร้างเนื้อหาสามารถเปลี่ยนข้อความและภาพให้กลายเป็นโมเดล 3D ที่น่าดึงดูดได้ในเวลาไม่ถึงนาที ในบล็อกนี้ เรารู้สึกตื่นเต้นที่จะเปิดเผยเรื่องราวเบื้องหลัง Meshy-1 และความสามารถของมัน เตรียมตัวให้พร้อมที่จะทึ่ง!

Ethan
โพสต์: 19 ตุลาคม 2566

วิสัยทัศน์ของเราคือการเสริมพลังให้ทุกคนสามารถทำให้จินตนาการ 3 มิติของพวกเขากลายเป็นจริงได้ นั่นคือเหตุผลที่เราสร้าง Meshy-1 ซึ่งเป็น AI สร้างสรรค์ที่รวดเร็วสำหรับ 3D เพื่อเสริมพลังให้กับผู้สร้างเนื้อหาในการเปลี่ยนข้อความและภาพให้กลายเป็นโมเดล 3 มิติที่น่าดึงดูดในเวลาเพียงไม่ถึงนาที

ในบล็อกนี้ เรารู้สึกตื่นเต้นที่จะเปิดเผยเรื่องราวเบื้องหลัง Meshy-1 และความสามารถของมัน[] เตรียมตัวให้พร้อมที่จะทึ่ง!

ทำไม GenAI สำหรับ 3D ถึงมีความสำคัญ (และยาก)?

การเพิ่มขึ้นของเนื้อหา 3D แบบอินเทอร์แอคทีฟ โดยเฉพาะในอุตสาหกรรมเกม ภาพยนตร์ และ XR ได้เพิ่มความต้องการสำหรับโมเดล 3D ผู้สร้างที่มีความเชี่ยวชาญต้องเผชิญกับเวลาการผลิตที่ยาวนาน ในขณะที่ผู้สร้างทั่วไปต้องดิ้นรนกับเครื่องมือที่ซับซ้อนเช่น Maya หรือ Blender ช่องว่างนี้ที่ถูกขยายโดยอุปสรรคด้านต้นทุนและความซับซ้อน เรียกร้องให้มีการแก้ปัญหา

ตอนนี้ เป็นช่วงเวลาสำคัญ ด้วยการเปิดตัว Vision Pro ของ Apple และ Meta ที่แนะนำ Quest 3 ควบคู่ไปกับการพัฒนาอย่างรวดเร็วของเทคโนโลยี AI สร้างสรรค์และตลาดเกมที่กำลังเติบโต ความคาดหวังร่วมกันสำหรับ AI สร้างสรรค์ 3D ที่ล้ำสมัยนั้นชัดเจนและพร้อมที่จะกลายเป็นจริง

ผลิตภัณฑ์ AI สร้างสรรค์ในรูปแบบต่าง ๆ จากข้อความ ภาพไปจนถึงวิดีโอ และอาจจะถึง 3D?

ในยุคที่น่าตื่นเต้นของ AI สร้างสรรค์นี้ ผลิตภัณฑ์ที่ทรงพลังหลายอย่างกำลังเกิดขึ้นในรูปแบบต่าง ๆ ตัวอย่างเช่น เราเห็น ChatGPT สำหรับข้อความ Midjourney สำหรับภาพ และ Runway สำหรับวิดีโอ

แม้ว่าจะดูเหมือนมีเหตุผลที่จะสันนิษฐานว่าการสร้าง 3D เป็นก้าวถัดไปที่กำลังจะเกิดขึ้น แต่ที่น่าสนใจคือยังไม่มีผู้นำที่ชัดเจนในด้านนี้ ส่วนใหญ่เป็นเพราะสูตรในการสร้างผลิตภัณฑ์ที่ใช้งานง่ายยังไม่ถูกค้นพบ ทำไมถึงเป็นเช่นนี้?

การเดินทางของฉันทั้งในวงการวิชาการและอุตสาหกรรม [1] ให้มุมมองในเหตุผลเบื้องหลังนี้

ความท้าทายที่ 1: การแลกเปลี่ยนระหว่างคุณภาพและความเร็ว ปัจจุบันมีสองวิธีหลักในขอบเขตของ 3D GenAI:

  • 2D Lifting: การยกระดับโมเดลสร้างสรรค์ 2D (เช่น Stable Diffusion) ไปสู่ 3D โดยใช้เทคนิคการเพิ่มประสิทธิภาพแบบวนซ้ำที่ใช้กับโครงสร้างเช่น NeRFs วิธีการเหล่านี้ใช้ข้อมูล 2D จำนวนมากและสามารถสร้างโมเดล 3D ที่มีคุณภาพดีได้หลากหลาย แต่ช้าและอาจใช้เวลาหลายชั่วโมงแม้จะใช้ GPU ที่เร็วอย่าง RTX 3080
  • 3D Diffusion: วิธีการนี้ลดเวลาการสร้างลงอย่างมากเหลือน้อยกว่า 1 นาทีต่อโมเดล เนื่องจากมีข้อมูลการฝึกอบรม 3D ไม่มาก โมเดลที่สร้างด้วยวิธีนี้มักขาดคุณภาพที่ดี

การแลกเปลี่ยนระหว่างคุณภาพและความเร็ววิธีการปัจจุบันช้าเกินไปหรือขาดคุณภาพที่ต้องการ ขัดขวางการพัฒนาผลิตภัณฑ์ที่มีประสิทธิภาพ Meshy มุ่งมั่นที่จะเป็นทั้งเร็วและมีคุณภาพสูง

นั่นคือเหตุผลที่ไม่มีผลิตภัณฑ์ 3D GenAI มากนัก การใช้ 3D diffusion ส่งผลให้คุณภาพต่ำ ในขณะที่ 2D lifting ทำให้ผู้ใช้ต้องรอนานและมีค่าใช้จ่ายเซิร์ฟเวอร์สูง ทีมงานของเราทำงานหนักเพื่อรวมข้อดีของทั้งสองวิธีและเอาชนะการแลกเปลี่ยนระหว่างคุณภาพและความเร็ว สร้างผลิตภัณฑ์ที่ให้ผู้ใช้สามารถเปลี่ยนข้อความ/ภาพเป็นโมเดล 3D ที่ดี ในเวลาน้อยกว่าหนึ่งนาที

ช่องว่างระหว่างการวิจัยและความต้องการของผู้ใช้

ความท้าทายที่ 2: ช่องว่างระหว่างนวัตกรรมทางวิชาการและความต้องการของผู้ใช้ ผลิตภัณฑ์ที่เน้นผู้ใช้เป็นศูนย์กลางต้องการมากกว่าแค่อัลกอริทึมและน้ำหนักของเครือข่ายประสาท มันจำเป็นต้องมีอินเทอร์เฟซผู้ใช้ที่ใช้งานง่ายและการผสานรวมที่ราบรื่นกับเครื่องมือที่แพร่หลายเช่น Unity และ Blender นอกจากนี้ยังต้องมีการจัดการ polycounts ที่เหมาะสมสำหรับการเล่นเกมบนมือถือและให้การควบคุมเนื้อหา/สไตล์ที่มีประสิทธิภาพเพื่อทำให้ไอเดียของผู้ใช้กลายเป็นจริงได้อย่างแท้จริง แม้ว่าการทำให้เป็นผลิตภัณฑ์ไม่ใช่วิทยาศาสตร์จรวด แต่มันต้องการความเข้าใจเชิงลึกเกี่ยวกับผลิตภัณฑ์และความเข้าใจอย่างลึกซึ้งในอุตสาหกรรม CG เพื่อพัฒนา [2]

Meshy-1: 3D GenAI ที่รวดเร็วและยอดเยี่ยม

ดังที่ได้กล่าวไว้ก่อนหน้านี้ หากกระบวนการสร้างใช้เวลาหลายชั่วโมง มันจะกลายเป็นเรื่องท้าทายในการสร้างผลิตภัณฑ์ที่สามารถขยายไปยังผู้ใช้หลายร้อยคนได้ ดังนั้นในฐานะผู้สร้าง จึงเป็นเรื่องเร่งด่วนที่จะต้องแก้ไขปัญหาความเร็วเป็นอันดับแรก

Meshy feature bento grid

แนะนำ Meshy-1, AI สร้างสรรค์ 3D ที่รวดเร็ว ช่วยให้ผู้สร้างเนื้อหาสามารถเปลี่ยน ข้อความ และ ภาพ ให้กลายเป็นโมเดล 3D ที่น่าดึงดูดใจในเวลาเพียง ไม่ถึงนาที Meshy-1 มีโหมดที่ใช้งานง่ายสามโหมด:

  1. Text to 3D: คำเข้า โมเดล 3D ออก
  2. Image to 3D: ภาพที่ให้ โมเดล 3D ที่ผลิต
  3. Text to Texture: สร้างพื้นผิวให้โมเดลของคุณด้วยคำอธิบายข้อความง่ายๆ [3]

ทั้งสามโหมดทำงานได้อย่างรวดเร็วและให้ผลลัพธ์ในเวลาไม่ถึง 60 วินาที

ฉากที่สร้างขึ้นโดย AI ทั้งหมด โมเดลทุกชิ้นในฉากนี้ถูกสร้างขึ้นโดยใช้ Meshy-1 Text to 3D.

ด้วยการสร้างบนพื้นฐาน Meshy-1 ที่เป็นที่รู้จัก โหมดทั้งสามนี้มีคุณสมบัติร่วมกันที่ไม่เคยมีมาก่อนในผลิตภัณฑ์ที่มีอยู่:

เร็วขึ้น 30 เท่า. ผลิตภัณฑ์ที่มีอยู่สามารถทำให้ผู้ใช้ต้องรอเป็นชั่วโมง และเราเชื่อว่านั่นเป็นสิ่งที่ยอมรับไม่ได้ Meshy-1 ปฏิวัติกระบวนการนี้โดยให้ผลลัพธ์ในเวลาไม่ถึงนาที[4] ไม่เพียงแต่จะเพิ่มประสบการณ์และประสิทธิภาพของผู้ใช้ แต่ความมีประสิทธิภาพที่น่าทึ่งของ Meshy-1 ยังช่วยให้เราลดต้นทุนต่อการสร้างของผู้ใช้ได้อย่างมาก

เป็นมิตรกับการทำงาน. การทำให้โมเดล 3D พร้อมใช้งานในแอปพลิเคชันต่อเนื่องเป็นสิ่งสำคัญ เราสนับสนุนรูปแบบการส่งออกเช่น glb, usdz และ fbx เรากำลังเปิดตัวปลั๊กอิน Unity ในสัปดาห์หน้า และปลั๊กอิน Blender & UE จะตามมาในภายหลัง เรายังวางแผนที่จะเพิ่มตัวเลือกการควบคุมจำนวนโพลี ที่ช่วยให้คุณลดจำนวนโพลีในเว็บแอปได้

Meshy unity plugin screenshot

พื้นผิวคุณภาพสูง. Meshy-1 นำเสนอความก้าวหน้าในคุณภาพของพื้นผิว

  • ความละเอียด 4K. ความละเอียดมีความสำคัญ และพื้นผิวของ Meshy-1 คมชัดอย่างยิ่ง
  • ช่อง PBR. การเรนเดอร์ที่ใช้ฟิสิกส์ (PBR) ได้กลายเป็นสิ่งสำคัญในเกมและภาพยนตร์ และ Meshy-1 ให้ผลลัพธ์เป็นแผนที่โลหะ, ความหยาบ, และแผนที่ปกติสำหรับความสมจริงทางกายภาพ
  • รองรับวัสดุหลายชนิดสำหรับ Text to Texture. เมื่อคุณกำลังสร้างพื้นผิวสำหรับโมเดล 3D ที่มีอยู่ มักจะเป็นกรณีที่โมเดลของคุณมีชุด UV หลายชุดและกลุ่มแผนที่พื้นผิวหลายกลุ่ม โหมด text-to-texture ของเราสนับสนุนกรณีดังกล่าวได้ดี

การควบคุมสไตล์. ในโหมด Text to 3D และ Text to Texture ของ Meshy-1 คุณสามารถเลือกจากสไตล์ศิลปะที่หลากหลายสำหรับการสร้างของคุณ รวมถึงสไตล์สมจริง การ์ตูน อนิเมะ การ์ตูน และอื่นๆ สิ่งนี้ให้การควบคุมสไตล์ศิลปะอย่างมากเกินกว่าที่คำสั่งข้อความเพียงอย่างเดียวจะอนุญาต

วิธีการใช้งาน?

Meshy-1 สามารถเข้าถึงได้ง่ายทั้งบนเว็บแอปและ Discord ในขณะที่เสนอฟังก์ชันการทำงานที่คล้ายกันในทุกแพลตฟอร์ม แต่ก็มีคุณสมบัติที่แตกต่างกันให้สังเกต:

  • Discord ให้การสร้างฟรีไม่จำกัด แต่การสร้างของคุณจะมองเห็นได้สาธารณะในช่องการสร้าง
  • เว็บแอป ให้การสร้างฟรี 20 ครั้งต่อวันและเพิ่มความสามารถเพิ่มเติมเช่นการจัดคิวงาน ช่อง PBR การควบคุมสไตล์ การแชร์ลิงก์ และการจัดการพื้นที่ทำงานของการสร้างของคุณ

ฟีเจอร์ Text to Texture และ Image to 3D ล่าสุดสามารถใช้งานได้ทั้งบน Discord และเว็บแอป คุณสามารถหา Text to 3D ที่อัปเดตแล้วบน Discord ได้วันนี้ และจะพร้อมใช้งานบนเว็บแอปในอีกไม่กี่สัปดาห์ แล้วจะใช้คุณสมบัติเหล่านี้ในโลกจริงได้อย่างไร? ผ่านผู้ใช้กลุ่มแรก เราพบรูปแบบที่มีประสิทธิภาพในการสร้าง 3D: ใช้ Text to 3D สำหรับอุปกรณ์ประกอบฉาก (ศิลปะสิ่งแวดล้อม) และ Image to 3D สำหรับตัวละคร

Text to 3D สำหรับอุปกรณ์ประกอบฉาก เพียงแค่ใส่ข้อความที่ต้องการและให้ Meshy-1 สร้างโมเดลตามคำอธิบายของคุณ ซึ่งเหมาะสำหรับการสร้างทรัพย์สินสิ่งแวดล้อมหรือ "อุปกรณ์ประกอบฉาก" ในเกม ตรวจสอบให้แน่ใจว่ามีสไตล์ที่สม่ำเสมอโดยใช้ตัวเลือกสไตล์ของเรา

ฉากที่สร้างโดย RenderMan, ศิลปิน UE อาวุโสในนิวยอร์ก, ทุกอย่างสร้างขึ้นโดยใช้ Meshy-1 Text to 3D.

Image to 3D สำหรับตัวละคร ใช้ภาพมุมมองด้านหน้า รวมถึงภาพจาก Midjourney หรือ Stable Diffusion และ Meshy-1 จะยกระดับให้เป็นโมเดล 3D ฟีเจอร์ Image to 3D ช่วยให้ควบคุมผลลัพธ์ได้อย่างดี สร้างการแสดงผล 3D ที่แท้จริงจากข้อมูล 2D ของคุณ ทำให้เป็นที่ชื่นชอบในหมู่ผู้ใช้กลุ่มแรกสำหรับการสร้างตัวละคร

ฉากโดย Samuel, ศิลปิน CG ในโตเกียว, ผู้ใช้กลุ่มแรกของ Meshy. ตัวละครทั้งหมดสร้างขึ้นโดยใช้ Meshy-1 Image to 3D และจากนั้นถูกทำให้เคลื่อนไหวโดยใช้ Mixamo.

จะเลือกภาพที่เหมาะสมได้อย่างไร? ควรเลือกภาพมุมมองด้านหน้า (โดยที่กล้องอยู่ตรงหน้าตัวละคร) และมีพื้นหลังที่สะอาด

ตัวอย่างภาพสำหรับผลลัพธ์ที่ดีกว่า

ปรับพื้นผิวโมเดลโดยใช้ Text to Texture ใช้โหมด Text to Texture ที่ผ่านการทดสอบของเรา คุณสามารถสร้างหรือเปลี่ยนพื้นผิวของโมเดลที่มีอยู่ได้อย่างง่ายดาย โดยเฉพาะโมเดลที่สร้างโดย AI

Beyond the Horizon

Meshy ใน AI สร้างสรรค์ 3D

เป้าหมายของเราคือการสร้าง Meshy ให้เป็นแพลตฟอร์มชั้นนำใน 3D GenAI แม้ว่า Meshy-1 จะเป็นก้าวสำคัญไปข้างหน้า แต่มันไม่ใช่บทสุดท้าย ในความเป็นจริง การพัฒนาเทคโนโลยี GenAI สำหรับ 3D ยังคงล้าหลังกว่า GenAI สำหรับข้อความหรือภาพ เนื่องจาก 3D มีมิติและความซับซ้อนมากขึ้น ดังนั้นจึงต้องใช้เวลาสำหรับผลิตภัณฑ์ 3D GenAI ที่จะตอบสนองคุณภาพการผลิตจริง

นอกจากการปรับปรุงผลลัพธ์ของ Meshy-1 แล้ว เรายังสำรวจแนวทางต่อไปนี้สำหรับแผนงานผลิตภัณฑ์ของเรา โดยได้รับคำแนะนำจากความคิดเห็นของผู้ใช้และการเรียนรู้ของเรา

ปรับปรุงคุณภาพตาข่าย ข้อจำกัดปัจจุบันของ AI สร้างสรรค์ เช่น จำนวนโพลีสูง (ปกติ 100K+), คุณภาพการคลี่ UV ที่ไม่ดี, และการขาดหน้าสี่เหลี่ยม ได้จำกัดความสามารถในการสร้างทรัพย์สินที่พร้อมสำหรับการผลิต การแก้ไขข้อจำกัดเหล่านี้เป็นสิ่งสำคัญ โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงความชอบของอุตสาหกรรมสำหรับหน้าสี่เหลี่ยมในการเคลื่อนไหวและโมเดลที่มีจำนวนโพลีน้อยสำหรับเกมมือถือ

การทำซ้ำแบบสนทนา เมื่อผู้ใช้เริ่มห่างจากซอฟต์แวร์การสร้างโมเดล 3D แบบดั้งเดิมเช่น Maya และ 3Ds Max พวกเขาต้องการการควบคุมที่เพิ่มขึ้นเหนือผลลัพธ์ที่สร้างโดย AI การให้ผู้ใช้มีความสามารถในการปรับปรุงแบบวนซ้ำ ซึ่งคล้ายกับการโต้ตอบหลายรอบแบบ ChatGPT เป็นประโยชน์

การควบคุมที่เพิ่มขึ้น ตัวอย่างเช่น ผู้ใช้ต้องการสร้างโมเดล 3D โดยการสร้างจากมุมมอง 2D หลายมุม เช่น มุมมองด้านหน้า ด้านข้าง และด้านหลัง สำหรับภาพไปยัง 3D เราเชื่อว่าการสร้างหลายมุมมองเป็นทิศทางที่สำคัญ

ผลลัพธ์ที่มีความสม่ำเสมอในสไตล์ ความสม่ำเสมอในการแสดงผลสไตล์เป็นความต้องการที่เกิดซ้ำจากผู้ใช้ โดยเน้นถึงความจำเป็นที่โมเดลจะต้องยึดตามธีมภาพที่กำหนด ในที่สุด ขอแสดงความขอบคุณอย่างจริงใจและชื่นชมทีม Meshy AI ทั้งหมด ความสำเร็จในปัจจุบันของเราเป็นข้อพิสูจน์ถึงความมุ่งมั่นและความพยายามที่ไม่หยุดยั้งของทุกคน เมื่อเรามองไปข้างหน้า อนาคตดูสดใส และฉันไม่มีข้อสงสัยว่าเราจะยังคงสร้างสรรค์และยอดเยี่ยมต่อไป ร่วมกันอยู่เสมอ เพราะเรากำลังจะเปิดเผยสิ่งที่น่าทึ่งยิ่งขึ้น!

[1]ก่อนที่จะเริ่มการเดินทางกับ Meshy ฉันสำเร็จการศึกษาปริญญาเอกในสาขา CG & AI ที่ MIT โดยมีส่วนร่วมในงานวิจัยที่ตีพิมพ์ในงานประชุมที่มีชื่อเสียงเช่น SIGGRAPH และ ICLR หลังจากจบการศึกษาปริญญาเอกในเวลา 3.5 ปี ฉันได้ใช้เวลา 2.5 ปีต่อมาในฐานะผู้ก่อตั้งสตาร์ทอัพ ทำให้ฉันสามารถเชื่อมโยงความรู้ทางวิชาการกับแง่มุมการปฏิบัติของการสร้างผลิตภัณฑ์ในโลกจริง ทั้งหมดนี้ในขณะที่ยังคงเรียนรู้และเติบโตในสาขาที่เปลี่ยนแปลงอย่างรวดเร็วนี้

[2]ทำไมต้องเรา? ทีม Meshy ประกอบด้วยผู้เชี่ยวชาญจากสถาบันและบริษัทที่มีชื่อเสียงเช่น MIT, Harvard, NVIDIA, Microsoft, Google, และ Meta ที่มีความรู้ลึกซึ้งในด้านกราฟิกคอมพิวเตอร์, AI, GPUs, การโปรแกรมที่แตกต่างได้, และการประมวลผลบนคลาวด์ เราเคยสร้างผลิตภัณฑ์ที่เน้นนักพัฒนาและผู้ใช้ที่ได้รับการตอบรับจากฐานผู้ใช้ของเรา ประสบการณ์เหล่านี้ให้ฐานที่มั่นคงสำหรับการสร้างผลิตภัณฑ์ AI สร้างสรรค์ 3D

[3]เราเปิดตัวเครื่องมือที่เรียกว่า Meshy Texturer ในเดือนมีนาคม 2023 แต่ตอนนี้ Meshy-1 มาพร้อมกับ Text to Texture ที่อัปเกรดแล้ว คุณสามารถจับคู่ Meshy Texturer กับโหมด Text to 3D และ Image to 3D ของเรา เพื่อให้คุณสามารถปรับแต่งพื้นผิวบนผลลัพธ์ที่สร้างโดย AI ได้อย่างละเอียด

[4]ข้อมูลที่ได้มาจากการตั้งค่าในห้องปฏิบัติการ ในช่วงที่เซิร์ฟเวอร์มีการใช้งานสูง เวลารออาจเกินหนึ่งนาที

เกี่ยวกับผู้เขียน

Dr. Ethan (Yuanming) Hu is a co-founder and serves as the CEO of Meshy. He obtained his Ph.D. in computer graphics from MIT CSAIL in 2021. His Ph.D. research on differentiable GPU programming languages earned him an honorable mention for the SIGGRAPH 2022 Outstanding Doctoral Dissertation Award. In 2021, Ethan co-founded Meshy, a company focused on CG software. He's currently focused on building Meshy AI, a world-leading platform in 3D GenAI.

Meshy is a global startup headquartered in San Jose, CA.

โพสต์นี้มีประโยชน์หรือไม่?

ปลดล็อคกระบวนการทำงาน 3D ที่เร็วขึ้น

แปลงกระบวนการออกแบบของคุณด้วย Meshy ลองใช้เดี๋ยวนี้และดูความสร้างสรรค์ของคุณเติมเต็มไปด้วยความไม่ฝืนธรรมชาติ!