Wan 2.1 & WanX 2.1 & Wan AI

Wan 2.1 โดย Wan AI คืออะไร?

Wan AI เป็นแบบจำลองการสร้างภาพขั้นสูงและทรงพลังที่พัฒนาโดยห้องปฏิบัติการ Tongyi สามารถสร้างวิดีโอจากข้อความ, ภาพ และสัญญาณควบคุมอื่น ๆ รุ่น Wan 2.1 เปิดให้ใช้งานแบบโอเพนซอร์สเต็มรูปแบบสำรวจตัวอย่าง

ภาพรวมของ Wan AI

👍

ประสิทธิภาพ SOTA

Wan 2.1 ทำได้ดีกว่าแบบจำลองโอเพนซอร์สที่มีอยู่และโซลูชันเชิงพาณิชย์ที่ทันสมัยที่สุดในหลาย ๆ มาตรฐาน

🚀

รองรับ GPU ระดับผู้บริโภค

โมเดล T2V-1.3B ต้องการ VRAM เพียง 8.19 GB ทำให้เข้ากันได้กับ GPU ระดับผู้บริโภคเกือบทั้งหมด สามารถสร้างวิดีโอ 480P ความยาว 5 วินาทีบน RTX 4090 ในเวลาประมาณ 4 นาที (โดยไม่ใช้เทคนิคการปรับปรุงประสิทธิภาพเช่น quantization) ประสิทธิภาพของมันเทียบได้กับโมเดลปิดบางรุ่น

🎉

งานหลายอย่าง

Wan 2.1 ทำได้ดีในด้านการสร้างวิดีโอจากข้อความ, การสร้างวิดีโอจากภาพ, การแก้ไขวิดีโอ, การสร้างภาพจากข้อความ และการสร้างเสียงจากวิดีโอ ซึ่งช่วยพัฒนาด้านการสร้างวิดีโอ

🔮

การสร้างข้อความภาพ

Wan 2.1 เป็นโมเดลวิดีโอแรกที่สามารถสร้างข้อความทั้งภาษาจีนและภาษาอังกฤษได้ โดยมีคุณสมบัติการสร้างข้อความที่แข็งแกร่งซึ่งเพิ่มการใช้งานจริง

💪

Video VAE ที่ทรงพลังของ Wan AI

Wan-VAE ให้ประสิทธิภาพและประสิทธิผลที่ยอดเยี่ยม สามารถเข้ารหัสและถอดรหัสวิดีโอ 1080P ความยาวใด ๆ ได้โดยคงข้อมูลเวลาไว้ ทำให้เป็นพื้นฐานที่เหมาะสำหรับการสร้างวิดีโอและภาพ

คุณสมบัติของ Wan AI

การเคลื่อนไหวที่ซับซ้อนโดย Wan AI

ทำได้ดีในการสร้างวิดีโอที่สมจริงที่มีการเคลื่อนไหวร่างกายที่กว้างขวาง, การหมุนที่ซับซ้อน, การเปลี่ยนฉากที่ไหลลื่น และการเคลื่อนไหวของกล้องที่ราบรื่น

การจำลองทางกายภาพโดย Wan AI

สร้างวิดีโอที่จำลองฟิสิกส์ของโลกจริงและการโต้ตอบของวัตถุได้อย่างแม่นยำ

คุณภาพระดับภาพยนตร์โดย Wan AI

เสนอภาพที่เหมือนภาพยนตร์ด้วยพื้นผิวที่สมบูรณ์และเอฟเฟกต์ที่หลากหลาย

การแก้ไขที่ควบคุมได้โดย Wan AI

มีโมเดลการแก้ไขที่ครอบคลุมสำหรับการแก้ไขที่แม่นยำโดยใช้ภาพหรือวิดีโออ้างอิง

การสร้างข้อความภาพโดย Wan AI

สร้างข้อความและเอฟเฟกต์ข้อความแบบไดนามิกในวิดีโอโดยตรงจากข้อความ

การแข่งรถ 8-Bit

Prompt: ภาพเคลื่อนไหวสไตล์ 8-bit แบบย้อนยุคของการแข่งรถ รถ muscle ที่เป็นพิกเซล, แต่ละคันมีสีและการออกแบบที่แตกต่างกัน, จอดเรียงที่เส้นเริ่มต้นในภูมิทัศน์ทะเลทรายที่เป็นพิกเซล ข้อความพิกเซลขนาดใหญ่ "WANX RACING" กระพริบบนรถในสีนีออนสดใส, เหมือนกับชื่อเกม arcade คลาสสิก กล้องแพนผ่านฉาก, เน้นสไตล์ย้อนยุคและข้อความ พื้นหลังเป็นภูมิทัศน์ทะเลทรายที่เป็นพิกเซลอย่างง่าย, พระอาทิตย์ตกที่เป็นบล็อกส่องแสงสีทองอบอุ่นทั่วฉาก ทั้งหมดนี้ถูกแต่งแต้มด้วยสีนีออนสดใสที่เป็นพิกเซล, เพิ่มความรู้สึกนอสตัลเจีย

สุขสันต์วันคริสต์มาส

Prompt: ฉากปาร์ตี้คริสต์มาสที่ตกแต่งอย่างสวยงามและสมจริง, ต้นคริสต์มาสประดับด้วยไฟสีสันสดใสและของขวัญ, เปลวไฟเต้นรำในเตาผิง, คนขนมปังขิงสวมหมวกคริสต์มาสเต้นรอบต้นไม้, และโต๊ะที่เต็มไปด้วยไก่งวงย่างและของอร่อยอื่น ๆ เอฟเฟกต์ข้อความที่สวยงามปรากฏบนหน้าจอ: "สุขสันต์วันคริสต์มาส!" หน้าจอดูสวยงาม, ซับซ้อน, และกระชับ

Mad Ricing

Prompt: ลำดับชื่อหนังแอคชั่นสมมติสไตล์ยุค 70 ข้อความ "WANX" ที่วาดด้วยมือและมีสไตล์ปรากฏบนหน้าจออย่างไดนามิก, ซ้อนทับกับคลิปที่เร็วของรถแข่ง, การระเบิด, และการแสดงผาดโผน ข้อความมีความหนา, หยาบ, และบิดเบี้ยวเล็กน้อย, สะท้อนสไตล์หนังแอคชั่นยุค 70 มอนเทจของฉากที่เร่าร้อนด้วยเอฟเฟกต์เกรนฟิล์มย้อนยุค, มีสีโทนอุ่นและวินเทจ ฉากทั้งหมดถูกแต่งแต้มด้วยแสงสีทอง, เพิ่มความรู้สึกนอสตัลเจีย

เสียงประกอบและดนตรีโดย Wan AI

สร้างเสียงประกอบและเพลงพื้นหลังที่สอดคล้องกับเนื้อหาภาพและจังหวะ

เฟอร์เรตส์กระโดดน้ำ

Prompt: กล้องเคลื่อนที่อย่างรวดเร็วจากไกลเข้ามาใกล้, ด้วยมุมมองที่ต่ำ, ยืนอยู่บนท่อนไม้ ในมุมมองไกล, เฟอร์เรตสีขาวปรากฏขึ้นทันที, เล่นกับท่อนไม้และกระโดดลงน้ำ, จากนั้นว่ายน้ำออกมาและโผล่หัวออกมา ในขณะนี้, กล้องซูมเข้าเพื่อแสดงภาพใกล้ของเฟอร์เรตสีขาว ต้นเบอร์รี่หลายต้นข้าง ๆ ถูกสาดน้ำ, มอสและหิมะปกคลุมพื้นดิน, และพื้นผิวน้ำถูกปกคลุมด้วยใบไม้ร่วงสีเขียว พื้นหลังเป็นต้นเบิร์ชสีขาว

คอนเสิร์ตของ Wan AI

Prompt: กลุ่มคนกำลังแสดงซิมโฟนีในห้องเวียนนา

น้ำแข็งตก

Prompt: กลุ่มคนกำลังแสดงซิมโฟนีในห้องเวียนนา

คุณสมบัติของผลิตภัณฑ์

ผ่านผลิตภัณฑ์ของเรา, คุณสามารถใช้โมเดลของเราได้อย่างราบรื่นด้วยประสบการณ์ที่ใช้งานง่ายเพื่อเข้าถึงเนื้อหาวิดีโอที่สร้างแรงบันดาลใจ

Wan AI โอเพนซอร์ส

ในที่นี้, เราเปิดเผยโค้ดและน้ำหนักสำหรับ Wan 2.1, ชุดโมเดลพื้นฐานวิดีโอที่ครอบคลุมและเปิดกว้างที่ออกแบบมาเพื่อขยายขีดความสามารถในการสร้างวิดีโอ

Wan2.1-I2V-14B

โมเดล I2V-14B ทำได้ดีกว่าโมเดลปิดชั้นนำและโมเดลโอเพนซอร์สที่มีอยู่ทั้งหมด โดยมีประสิทธิภาพ SOTA สามารถสร้างวิดีโอที่แสดงฉากภาพและรูปแบบการเคลื่อนไหวที่ซับซ้อนได้จากข้อความและภาพที่ป้อนเข้า รวมถึงโมเดลความละเอียด 480P และ 720P

Wan2.1-T2V-14B

😊480-720P

โมเดล T2V-14B ตั้งค่าประสิทธิภาพ SOTA ใหม่ในทั้งโมเดลโอเพนซอร์สและโมเดลปิด แสดงความสามารถในการสร้างภาพที่มีคุณภาพสูงพร้อมการเคลื่อนไหวที่สมจริง นอกจากนี้ยังเป็นโมเดลวิดีโอเดียวที่สามารถสร้างข้อความทั้งภาษาจีนและภาษาอังกฤษได้ และรองรับการสร้างวิดีโอที่ความละเอียด 480P และ 720P

Wan2.1-T2V-1.3B

😊480P

โมเดล T2V-1.3B รองรับการสร้างวิดีโอบน GPU ระดับผู้บริโภคเกือบทั้งหมด โดยต้องการ BRAM เพียง 8.19 GB เพื่อสร้างวิดีโอ 480P ความยาว 5 วินาที โดยใช้เวลาเพียง 4 นาทีบน GPU RTX 4090 ผ่านกระบวนการ pre-training และ distillation ทำให้มันทำได้ดีกว่าโมเดลโอเพนซอร์สขนาดใหญ่และมีประสิทธิภาพเทียบเท่ากับโมเดลปิดบางรุ่น

Wan2.1-FLF2V-14B-720P

Wan 2.1 First-Last-Frame-to-Video (FLF2V) เป็นเทคโนโลยีการสร้างวิดีโอด้วย AI ที่สังเคราะห์เฟรมระหว่างเฟรมแรกและเฟรมสุดท้ายที่กำหนดเพื่อสร้างวิดีโอที่ราบรื่น ใช้โมเดลพารามิเตอร์ 14B รองรับการอนุมานที่เร่งความเร็วด้วย GPU หลายตัว และมีจุดตรวจสอบที่ผ่านการฝึกอบรมมาแล้วพร้อมการสาธิต Gradio สำหรับการทดสอบแบบโต้ตอบ การใช้งานรวมถึงการแทรกวิดีโอ การผลิตแอนิเมชัน และอื่นๆ

Tech Report

รอติดตามการเปิดตัวรายงานทางเทคนิคที่ครอบคลุมของเราเพื่อดูรายละเอียดเพิ่มเติม

สร้างขึ้นจากกระบวนทัศน์ Diffusion Transformer แบบ mainstream, Wan 2.1 บรรลุความก้าวหน้าที่สำคัญในความสามารถในการสร้างผ่านนวัตกรรมต่าง ๆ รวมถึง spatio-temporal variational autoencoder (VAE) ที่ใหม่ของเรา, กลยุทธ์ pre-training ที่ปรับขนาดได้, การสร้างข้อมูลขนาดใหญ่, และเมตริกการประเมินอัตโนมัติ ผลงานเหล่านี้ช่วยเพิ่มประสิทธิภาพและความหลากหลายของโมเดล

ทำไมต้องเลือก Wan AI?

สัมผัสอนาคตของการสร้างวิดีโอด้วย AI ด้วยเทคโนโลยีชั้นนำของอุตสาหกรรมและความสามารถที่ไม่มีใครเทียบได้

คุณภาพระดับอัลตร้า

สร้างวิดีโอคุณภาพระดับภาพยนตร์พร้อมรายละเอียดสมจริงและการจำลองฟิสิกส์ที่แม่นยำ

การควบคุมการเคลื่อนไหวขั้นสูง

จัดการการเคลื่อนไหวที่ซับซ้อน การหมุน และพลศาสตร์ร่างกายธรรมชาติได้อย่างราบรื่น

รองรับภาษาทั่วโลก

สร้างวิดีโอพร้อมเอฟเฟกต์ข้อความหลายภาษาสำหรับผู้ชมทั่วโลก

ประมวลผลเร็วดั่งสายฟ้า

ขับเคลื่อนด้วย 3D causal VAE รุ่นใหม่สำหรับการสร้างวิดีโอ 1080P แบบไม่จำกัด

ความเป็นเลิศในราคาที่จับต้องได้

การผลิตวิดีโอระดับมืออาชีพในราคาที่ถูกกว่าต้นทุนแบบดั้งเดิมมาก

คำถามที่พบบ่อย

1

Wan 2.1 โดย Wan AI คืออะไรและทำงานอย่างไร?

Wan 2.1 โดย Wan AI เป็นโมเดลการสร้างวิดีโอที่ทันสมัยที่สุดของ Alibaba Cloud ที่แปลงคำอธิบายข้อความเป็นวิดีโอคุณภาพสูงที่สวยงาม ใช้เทคโนโลยีขั้นสูงเช่น Variational Autoencoders (VAE) และ Diffusion Transformers (DiT) เพื่อให้มั่นใจว่าภาพที่ได้สมจริง, การเปลี่ยนฉากที่ราบรื่น, และฟิสิกส์ที่แม่นยำสำหรับประสบการณ์ที่สมจริง

2

ฉันจำเป็นต้องมีความเชี่ยวชาญทางเทคนิคเพื่อใช้ Wan 2.1 โดย Wan AI หรือไม่?

Wan 2.1 โดย Wan AI ออกแบบมาให้ใช้ง่าย อินเทอร์เฟซที่ใช้งานง่ายช่วยให้ทุกคนสร้างวิดีโอคุณภาพระดับมืออาชีพได้อย่างง่ายดาย แม้ไม่มีทักษะทางเทคนิคขั้นสูง ไม่ว่าคุณจะเป็นมือใหม่หรือมืออาชีพ คุณจะพบว่าแพลตฟอร์มนี้ใช้งานง่าย

3

ฉันสามารถสร้างวิดีโอประเภทใดได้บ้างด้วย Wan 2.1 โดย Wan AI?

Wan 2.1 โดย Wan AI มีความหลากหลายและสามารถสร้างเนื้อหาวิดีโอได้หลากหลายประเภท ตั้งแต่ฉากที่เคลื่อนไหวเช่นการเต้นรำและกีฬา ไปจนถึงบทเรียนการศึกษาและการบูรณะวิดีโอประวัติศาสตร์ มันช่วยให้คุณสามารถนำวิสัยทัศน์สร้างสรรค์ของคุณมาสู่ชีวิต

4

ใช้เวลานานแค่ไหนในการสร้างวิดีโอ?

เวลาที่ใช้ในการสร้างวิดีโอขึ้นอยู่กับความซับซ้อนและความยาวของโครงการของคุณ สำหรับผลลัพธ์ที่เร็วขึ้น, เวอร์ชัน Pro นำเสนอความเร็วในการประมวลผลที่เร็วขึ้น, ทำให้เหมาะสำหรับงานที่ต้องการความรวดเร็ว

5

ฉันสามารถปรับแต่งผลลัพธ์วิดีโอได้หรือไม่?

แน่นอน! Wan 2.1 โดย Wan AI มีตัวเลือกการปรับแต่งที่หลากหลาย, ช่วยให้คุณสามารถปรับความละเอียด, อัตราเฟรม, ความซับซ้อนของการเคลื่อนไหว, และอื่น ๆ ปรับวิดีโอของคุณให้ตรงกับความต้องการและความชอบเฉพาะของคุณ

6

Wan 2.1 โดย Wan AI รองรับรูปแบบอินพุตใดบ้างสำหรับการสร้างวิดีโอ?

Wan 2.1 โดย Wan AI รองรับคำอธิบายข้อความเป็นหลักสำหรับการสร้างวิดีโอ คุณสามารถให้คำอธิบายข้อความที่ละเอียดเพื่ออธิบายฉาก, การกระทำ, และเอฟเฟกต์ภาพที่ต้องการ นอกจากนี้, มันอาจรองรับอินพุตภาพเพื่อเพิ่มบริบทในอนาคต

7

Wan 2.1 โดย Wan AI สามารถสร้างวิดีโอในหลายภาษาได้หรือไม่?

ใช่, Wan 2.1 โดย Wan AI รองรับอินพุตข้อความหลายภาษา, ช่วยให้คุณสามารถสร้างวิดีโอจากคำอธิบายในภาษาต่าง ๆ อย่างไรก็ตาม, คุณภาพของผลลัพธ์อาจแตกต่างกันไปขึ้นอยู่กับภาษาและความซับซ้อนของคำอธิบาย

8

มีข้อจำกัดเกี่ยวกับความยาวของวิดีโอที่ Wan 2.1 โดย Wan AI สามารถสร้างได้หรือไม่?

ความยาวของวิดีโอที่สร้างขึ้นขึ้นอยู่กับแผนการสมัครสมาชิก เวอร์ชันฟรีอาจมีข้อจำกัดเกี่ยวกับระยะเวลาของวิดีโอ, ในขณะที่เวอร์ชัน Pro รองรับการสร้างวิดีโอที่ยาวและซับซ้อนมากขึ้น ข้อจำกัดเฉพาะสามารถพบได้ในเอกสารของแพลตฟอร์ม

9

Wan 2.1 โดย Wan AI รับประกันคุณภาพของวิดีโอที่สร้างขึ้นอย่างไร?

Wan 2.1 โดย Wan AI ใช้เทคโนโลยีขั้นสูงเช่น Variational Autoencoders (VAE) และ Diffusion Transformers (DiT) เพื่อให้มั่นใจว่าผลลัพธ์มีคุณภาพสูง เทคโนโลยีเหล่านี้ช่วยให้ภาพที่ได้สมจริง, การเปลี่ยนฉากที่ราบรื่น, และการจำลองฟิสิกส์ที่แม่นยำ

10

Wan 2.1 โดย Wan AI จัดการกับฉากที่ซับซ้อนที่มีตัวละครหลายตัวอย่างไร?

Wan 2.1 โดย Wan AI ออกแบบมาเพื่อจัดการกับฉากที่ซับซ้อนที่มีตัวละครหลายตัวโดยการวิเคราะห์ความสัมพันธ์และปฏิสัมพันธ์ที่อธิบายไว้ในข้อความที่ป้อนเข้า มันใช้อัลกอริทึมขั้นสูงเพื่อให้มั่นใจว่าตำแหน่ง, การเคลื่อนไหว, และปฏิสัมพันธ์ระหว่างตัวละครเป็นไปอย่างสมจริง