Tầm nhìn của chúng tôi là trao quyền cho mọi người hiện thực hóa trí tưởng tượng 3D của họ. Đó là lý do tại sao chúng tôi xây dựng Meshy-1, một AI tạo sinh nhanh cho 3D, giúp các nhà sáng tạo nội dung biến đổi văn bản và hình ảnh thành các mô hình 3D hấp dẫn chỉ trong chưa đầy một phút.
Trong blog này, chúng tôi rất vui mừng tiết lộ câu chuyện đằng sau Meshy-1 và khả năng của nó[]. Hãy chuẩn bị để bị kinh ngạc!
Tại sao GenAI cho 3D quan trọng (và khó khăn)?
Sự bùng nổ của nội dung tương tác 3D, đặc biệt trong ngành game, phim và XR, đã làm tăng nhu cầu về các mô hình 3D. Các nhà sáng tạo chuyên nghiệp phải đối mặt với thời gian sản xuất kéo dài, trong khi các nhà sáng tạo không chuyên gặp khó khăn với các công cụ phức tạp như Maya hoặc Blender. Khoảng cách này, được khuếch đại bởi rào cản về chi phí và độ phức tạp, đòi hỏi một giải pháp.
Bây giờ là thời điểm then chốt. Với việc ra mắt Vision Pro của Apple và Meta giới thiệu Quest 3, cùng với sự tiến bộ nhanh chóng của công nghệ AI tạo sinh và thị trường game đang phát triển mạnh mẽ, sự mong đợi chung cho một AI tạo sinh 3D đột phá là rõ ràng và sẵn sàng để hiện thực hóa.
Trong kỷ nguyên thú vị của AI tạo sinh, nhiều sản phẩm mạnh mẽ đang nổi lên trong các phương thức khác nhau. Ví dụ, chúng ta thấy ChatGPT cho văn bản, Midjourney cho hình ảnh, và Runway cho video.
Mặc dù có vẻ hợp lý khi cho rằng việc tạo 3D là bước tiến tiếp theo, nhưng thú vị thay, chưa có người dẫn đầu rõ ràng trong lĩnh vực này, chủ yếu vì công thức để tạo ra một sản phẩm dễ sử dụng vẫn chưa được khám phá. Tại sao lại như vậy?
Hành trình của tôi qua cả học thuật và công nghiệp [1] cung cấp một góc nhìn về lý do đằng sau điều này.
Thách thức 1: Sự đánh đổi giữa chất lượng và tốc độ. Hiện tại, có hai phương pháp chủ đạo trong lĩnh vực GenAI 3D:
- 2D Lifting: Nâng cao các mô hình tạo sinh 2D (như Stable Diffusion) lên 3D, sử dụng các kỹ thuật tối ưu hóa lặp lại áp dụng cho các cấu trúc như NeRFs. Những phương pháp này sử dụng nhiều dữ liệu 2D và có thể tạo ra nhiều mô hình 3D chất lượng tốt, nhưng rất chậm và có thể mất hàng giờ ngay cả trên các GPU nhanh như RTX 3080.
- 3D Diffusion: Phương pháp này giảm đáng kể thời gian tạo xuống dưới 1 phút mỗi mô hình. Vì không có nhiều dữ liệu huấn luyện 3D có sẵn, các mô hình tạo ra theo cách này thường thiếu chất lượng tốt.
Các phương pháp hiện tại hoặc quá chậm hoặc thiếu chất lượng mong muốn, cản trở sự phát triển của một sản phẩm hiệu quả. Meshy nhằm mục tiêu vừa nhanh vừa chất lượng cao.
Đó là lý do tại sao không có nhiều sản phẩm GenAI 3D ngoài kia. Sử dụng 3D diffusion dẫn đến chất lượng thấp, trong khi 2D lifting dẫn đến thời gian chờ đợi dài cho người dùng và chi phí máy chủ cao. Đội ngũ của chúng tôi đã làm việc chăm chỉ để kết hợp lợi ích của hai phương pháp và vượt qua sự đánh đổi giữa chất lượng và tốc độ, tạo ra một sản phẩm cho phép người dùng biến văn bản/hình ảnh thành mô hình 3D tốt trong chưa đầy một phút.
Thách thức 2: Khoảng cách giữa đổi mới học thuật và nhu cầu người dùng. Một sản phẩm lấy người dùng làm trung tâm vượt qua các thuật toán và trọng số mạng nơ-ron đơn thuần; nó đòi hỏi giao diện người dùng trực quan và tích hợp liền mạch với các công cụ phổ biến như Unity và Blender. Hơn nữa, nó phải cung cấp số lượng đa giác có thể quản lý phù hợp cho game di động và cung cấp khả năng kiểm soát nội dung/phong cách hiệu quả để hiện thực hóa ý tưởng của người dùng một cách chân thực. Mặc dù việc sản xuất sản phẩm không phải là khoa học tên lửa, nhưng nó đòi hỏi sự thấu hiểu sâu sắc về sản phẩm và sự hiểu biết sâu sắc về ngành công nghiệp CG để phát triển. [2]
Meshy-1: GenAI 3D Nhanh và Tuyệt Vời
Như đã đề cập trước đó, nếu quá trình tạo kéo dài hàng giờ, việc tạo ra một sản phẩm có thể mở rộng đến hàng trăm người dùng trở nên thách thức. Vì vậy, với tư cách là một nhà sản xuất, việc giải quyết vấn đề tốc độ là cấp bách.
Giới thiệu Meshy-1, một AI tạo hình 3D nhanh chóng, giúp các nhà sáng tạo nội dung biến đổi văn bản và hình ảnh thành các mô hình 3D hấp dẫn chỉ trong chưa đầy một phút. Meshy-1 có ba chế độ dễ sử dụng:
- Văn bản thành 3D: Nhập từ, xuất mô hình 3D
- Hình ảnh thành 3D: Cung cấp hình ảnh, tạo ra mô hình 3D
- Văn bản thành Kết cấu: Kết cấu mô hình của bạn với các mô tả văn bản đơn giản [3]
Cả ba chế độ đều hoạt động nhanh chóng và cho bạn kết quả trong vòng chưa đầy 60 giây.
Một cảnh hoàn toàn được tạo bởi AI. Mỗi mô hình trong cảnh này được tạo bằng Meshy-1 Văn bản thành 3D.Dựa trên nền tảng chung của Meshy-1, ba chế độ chia sẻ các tính năng chung mà trước đây không có trong các sản phẩm hiện có:
Nhanh hơn 30 lần. Các sản phẩm hiện có có thể khiến người dùng chờ đợi hàng giờ, và chúng tôi tin rằng điều đó là không thể chấp nhận được. Meshy-1 cách mạng hóa quy trình này bằng cách cung cấp kết quả trong vòng chưa đầy một phút[4]. Điều này không chỉ cải thiện trải nghiệm và năng suất của người dùng, mà hiệu quả đáng kinh ngạc của Meshy-1 còn cho phép chúng tôi giảm đáng kể chi phí mỗi lần tạo cho người dùng.
Thân thiện với quy trình làm việc. Đảm bảo rằng các mô hình 3D sẵn sàng sử dụng trong các ứng dụng hạ nguồn là rất quan trọng. Chúng tôi hỗ trợ các định dạng đầu ra như glb, usdz và fbx. Chúng tôi cũng sẽ ra mắt plugin Unity vào tuần tới, với các plugin Blender & UE sẽ ra mắt sau. Chúng tôi cũng đang lên kế hoạch thêm tùy chọn kiểm soát polycount, cho phép bạn giảm polycount trong ứng dụng web.
Kết cấu chất lượng cao. Meshy-1 mang đến một bước đột phá trong chất lượng kết cấu.
- Độ phân giải 4K. Độ phân giải rất quan trọng, và kết cấu của Meshy-1 sắc nét rõ ràng.
- Kênh PBR. Kết xuất Dựa trên Vật lý (PBR) đã trở nên quan trọng trong trò chơi và phim ảnh, và Meshy-1 xuất ra các bản đồ kim loại, độ nhám và bản đồ thường cho tính hiện thực vật lý.
- Hỗ trợ nhiều vật liệu cho Văn bản thành Kết cấu. Khi bạn đang tạo kết cấu cho một mô hình 3D hiện có, thường thì mô hình của bạn có nhiều bộ UV và nhiều nhóm bản đồ kết cấu. Chế độ văn bản thành kết cấu của chúng tôi hỗ trợ tốt các trường hợp như vậy.
Kiểm soát phong cách. Trong các chế độ Văn bản thành 3D và Văn bản thành Kết cấu của Meshy-1, bạn có thể chọn từ nhiều phong cách nghệ thuật cho việc tạo của mình, bao gồm Thực tế, Hoạt hình, Anime, Truyện tranh, và nhiều hơn nữa. Điều này cung cấp cho bạn sự kiểm soát đáng kể về phong cách nghệ thuật, vượt ra ngoài những gì mà các gợi ý văn bản đơn thuần có thể cho phép.
Cách Sử Dụng?
Meshy-1 có sẵn dễ dàng trên cả ứng dụng web và Discord của chúng tôi. Trong khi cung cấp các chức năng tương tự trên các nền tảng, có những tính năng khác biệt cần lưu ý:
- Discord cung cấp số lần tạo miễn phí không giới hạn, mặc dù các sáng tạo của bạn sẽ được công khai trên kênh tạo.
- Ứng dụng Web cung cấp 20 lần tạo miễn phí hàng ngày và bổ sung các khả năng như xếp hàng nhiệm vụ, kênh PBR, kiểm soát phong cách, chia sẻ liên kết, và quản lý không gian làm việc tạo của bạn.
Các tính năng mới nhất Văn bản thành Kết cấu và Hình ảnh thành 3D có thể sử dụng ngay trên cả Discord và ứng dụng web. Bạn có thể tìm thấy Văn bản thành 3D cập nhật trên Discord hôm nay, và nó sẽ có sẵn trên ứng dụng web trong vài tuần tới. Vậy làm thế nào để sử dụng những tính năng này trong thế giới thực? Thông qua những người dùng sớm, chúng tôi đã tìm ra các mẫu hiệu quả cho việc tạo 3D: sử dụng Text to 3D cho đạo cụ (nghệ thuật môi trường), và Image to 3D cho nhân vật.
Text to 3D cho đạo cụ. Chỉ cần nhập một lời nhắc văn bản và để Meshy-1 tạo ra các mô hình theo mô tả của bạn, lý tưởng cho việc tạo ra các tài sản môi trường hoặc "đạo cụ" trong trò chơi. Đảm bảo phong cách nhất quán bằng cách sử dụng tùy chọn phong cách của chúng tôi.
Cảnh được tạo bởi RenderMan, nghệ sĩ UE cao cấp tại New York, với mọi thứ được tạo ra bằng Meshy-1 Text to 3D.Image to 3D cho nhân vật. Sử dụng một hình ảnh mặt trước, bao gồm cả những hình ảnh từ Midjourney hoặc Stable Diffusion, và Meshy-1 sẽ nâng cấp nó thành một mô hình 3D. Tính năng Image to 3D đảm bảo kiểm soát đầu ra mạnh mẽ, tạo ra một đại diện 3D chân thực của đầu vào 2D của bạn, khiến nó trở thành lựa chọn yêu thích của người dùng sớm cho việc tạo nhân vật.
Cảnh của Samuel, nghệ sĩ CG tại Tokyo, người dùng sớm của Meshy. Tất cả các nhân vật đều được tạo ra bằng Meshy-1 Image to 3D và sau đó được hoạt hình bằng Mixamo.Làm thế nào để chọn hình ảnh phù hợp? Ưu tiên các góc nhìn mặt trước (với máy ảnh đặt trực tiếp trước nhân vật) và nền sạch.
Tái tạo kết cấu mô hình bằng Text to Texture. Sử dụng chế độ Text to Texture đã được thử nghiệm của chúng tôi, bạn có thể dễ dàng tạo hoặc thay thế kết cấu của các mô hình hiện có, đặc biệt là những mô hình được tạo ra bởi AI.
Vượt ra khỏi Chân trời
Mục tiêu của chúng tôi là thiết lập Meshy như nền tảng hàng đầu trong 3D GenAI. Dù Meshy-1 đánh dấu một bước tiến quan trọng, nhưng nó không phải là chương cuối cùng. Thực tế, sự phát triển công nghệ của GenAI cho 3D còn tụt hậu so với GenAI cho văn bản hoặc hình ảnh. Điều này là do 3D giới thiệu nhiều chiều và phức tạp hơn. Do đó, cần thời gian để các sản phẩm 3D GenAI thực sự đạt được chất lượng sản xuất.
Ngoài việc tối ưu hóa đầu ra của Meshy-1, chúng tôi đang khám phá các hướng đi sau cho lộ trình sản phẩm của mình, được hướng dẫn bởi phản hồi của người dùng và học hỏi,
Cải thiện chất lượng lưới. Các hạn chế hiện tại của AI tạo sinh, như số lượng đa giác cao (thường trên 100K), chất lượng UV unwrapping kém, và thiếu các mặt tứ giác, đã hạn chế khả năng của nó trong việc tạo ra các tài sản sẵn sàng cho sản xuất. Giải quyết những hạn chế này là rất quan trọng, đặc biệt khi xem xét sự ưu tiên của ngành công nghiệp đối với các mặt tứ giác trong hoạt hình và mô hình có số lượng đa giác thấp cho trò chơi di động.
Các lần lặp lại hội thoại. Khi người dùng dần rời xa phần mềm mô hình hóa 3D truyền thống như Maya và 3Ds Max, họ mong muốn có sự kiểm soát nhiều hơn đối với các đầu ra do AI tạo ra. Việc trao quyền cho người dùng với khả năng tinh chỉnh lặp đi lặp lại, giống như các tương tác nhiều vòng của ChatGPT, là hữu ích.
Tăng cường kiểm soát. Ví dụ, người dùng muốn tạo mô hình 3D bằng cách tạo ra chúng từ nhiều góc nhìn 2D, như mặt trước, mặt bên và mặt sau. Đối với hình ảnh sang 3D, chúng tôi tin rằng việc tạo ra từ nhiều góc nhìn là một hướng đi quan trọng.
Đầu ra với sự nhất quán về phong cách. Sự nhất quán trong việc hiển thị phong cách là một yêu cầu thường xuyên của người dùng, nhấn mạnh nhu cầu các mô hình tuân theo một chủ đề hình ảnh được chỉ định. Cuối cùng, xin gửi lời cảm ơn chân thành và lời khen ngợi đến toàn bộ đội ngũ Meshy AI. Thành công hiện tại của chúng ta là minh chứng cho sự cam kết và nỗ lực không ngừng của mọi người. Khi chúng ta hướng tới tương lai, chân trời đang rộng mở và tôi không nghi ngờ gì rằng cùng nhau, chúng ta sẽ tiếp tục đổi mới và xuất sắc. Hãy luôn gắn bó, vì chúng ta đang trên đà ra mắt một điều gì đó thậm chí còn đáng chú ý hơn!
[1]Trước khi bắt đầu hành trình với Meshy, tôi đã hoàn thành chương trình Tiến sĩ về CG & AI tại MIT, đóng góp vào các nghiên cứu được công bố tại các hội nghị danh tiếng như SIGGRAPH và ICLR. Sau khi hoàn thành chương trình tiến sĩ trong 3,5 năm, tôi đã dành 2,5 năm tiếp theo làm người sáng lập startup, cho phép tôi kết nối kiến thức học thuật của mình với các khía cạnh thực tế của việc xây dựng các sản phẩm thực tế, đồng thời tiếp tục học hỏi và phát triển trong lĩnh vực năng động này.
[2]Tại sao chọn chúng tôi? Đội ngũ Meshy bao gồm các chuyên gia từ các tổ chức và công ty danh tiếng như MIT, Harvard, NVIDIA, Microsoft, Google, và Meta, với kiến thức sâu rộng về đồ họa máy tính, AI, GPU, lập trình phân biệt, và điện toán đám mây. Chúng tôi đã từng xây dựng các sản phẩm tập trung vào nhà phát triển và người dùng được cộng đồng đón nhận. Những kinh nghiệm này cung cấp một nền tảng vững chắc để tạo ra sản phẩm AI sinh 3D.
[3]Chúng tôi đã ra mắt một công cụ gọi là Meshy Texturer vào tháng 3 năm 2023, nhưng bây giờ Meshy-1 đã có mặt với Text to Texture nâng cấp. Bạn có thể kết hợp Meshy Texturer với các chế độ Text to 3D và Image to 3D của chúng tôi, cho phép bạn tinh chỉnh các kết cấu trên các đầu ra do AI tạo ra.
[4]Dữ liệu được thu thập trong môi trường phòng thí nghiệm. Trong các giai đoạn máy chủ tải cao, thời gian chờ có thể vượt quá một phút.