Alibaba Cloud'un video oluşturma modeli Wan 2.1 (Wan), Apache 2.0 lisansı altında açık kaynak olarak yayınlandı. Bu sürüm, hem 14B hem de 1.3B parametre versiyonlarının tüm çıkarım kodlarını ve ağırlıklarını içeriyor ve metinden videoya ve görüntüden videoya görevleri destekliyor. Dünya çapındaki geliştiriciler, modeli GitHub, HuggingFace ve Modao topluluğunda erişebilir ve deneyimleyebilir.
Modelin Açık Kaynak Parametre Versiyonları:
Wan 2.1 Modelinin 14B Versiyonu
- Performans: Talimatları takip etme, karmaşık hareket oluşturma, fiziksel modelleme ve metinden videoya oluşturma konularında üstün performans gösteriyor.
- Kıyaslama: Yetkili VBench değerlendirme setinde toplam %86.22 puan elde etti ve Sora, Luma ve Pika gibi diğer modelleri önemli ölçüde geride bırakarak birinci sırada yer aldı.
Wan 2.1 Modelinin 1.3B Versiyonu
- Performans: Daha büyük açık kaynak modelleri geride bırakıyor ve hatta bazı kapalı kaynak modellerle eşleşiyor.
- Donanım Gereksinimleri: Sadece 8.2GB VRAM ile tüketici sınıfı GPU'larda çalışabilir ve 480P videolar oluşturabilir.
- Uygulamalar: İkincil model geliştirme ve akademik araştırmalar için uygundur.
2023'ten bu yana Alibaba Cloud, büyük modelleri açık kaynak olarak yayınlamaya kararlı. Qwen'den türetilen modellerin sayısı 100.000'i aştı ve bu, onu küresel olarak en büyük AI model ailesi haline getirdi. Wan 2.1'in açık kaynak olarak yayınlanmasıyla, Alibaba Cloud artık iki temel modelini tamamen açık kaynak olarak yayınladı ve çok modlu, tam ölçekli büyük modeller için açık kaynak durumuna ulaştı.
Wan 2.1 (Wan) Modelinin Teknik Analizi
Model Performansı
Wan 2.1 modeli, çeşitli iç ve dış kıyaslama testlerinde mevcut açık kaynak modelleri ve en iyi ticari kapalı kaynak modelleri geride bırakıyor. Dönme, zıplama, dönüş ve yuvarlanma gibi karmaşık insan vücudu hareketlerini istikrarlı bir şekilde gösterebilir ve çarpışma, sekme ve kesme gibi karmaşık gerçek dünya fiziksel senaryolarını doğru bir şekilde yeniden üretebilir.
Talimatları takip etme yetenekleri açısından, model hem Çince hem de İngilizce uzun metin talimatlarını doğru bir şekilde anlayabilir ve çeşitli sahne geçişlerini ve karakter etkileşimlerini sadık bir şekilde yeniden üretebilir.
Anahtar Teknolojiler
Ana akım DiT ve lineer gürültü programı Flow Matching paradigmalarına dayanan Wan AI Büyük Modeli, bir dizi teknolojik yenilikle üretim yeteneklerinde önemli ilerlemeler kaydetti. Bunlar arasında verimli bir nedensel 3D VAE geliştirilmesi, ölçeklenebilir ön eğitim stratejileri, büyük ölçekli veri boru hatlarının oluşturulması ve otomatik değerlendirme metriklerinin uygulanması yer alıyor. Birlikte, bu yenilikler modelin genel performansını artırdı.
Verimli Nedensel 3D VAE: Wan AI, video oluşturma için özel olarak tasarlanmış yeni bir nedensel 3D VAE mimarisi geliştirdi ve uzamsal-zamansal sıkıştırmayı iyileştirmek, bellek kullanımını azaltmak ve zamansal nedenselliği sağlamak için çeşitli stratejiler içeriyor.
Video Diffusion Transformer: Wan AI model mimarisi, ana akım Video Diffusion Transformer yapısına dayanıyor. Full Attention mekanizması aracılığıyla uzun vadeli uzamsal-zamansal bağımlılıkların etkili bir şekilde modellenmesini sağlıyor ve zamansal ve uzamsal olarak tutarlı video oluşturma sağlıyor.
Model Eğitimi ve Çıkarım Verimliliği Optimizasyonu: Eğitim aşamasında, metin ve video kodlama modülleri için Data Parallelism (DP) ve Fully Sharded Data Parallelism (FSDP) kombinasyonunu kullanıyoruz. DiT modülü için ise DP, FSDP, RingAttention ve Ulysses'i entegre eden hibrit bir paralel strateji benimsiyoruz. Çıkarım aşamasında, birden fazla GPU kullanarak tek bir video oluşturmanın gecikmesini azaltmak için Collective Parallelism (CP) seçmemiz gerekiyor. Ayrıca, model büyük olduğunda model dilimleme de gereklidir.
Açık Kaynak Topluluğu Dostu
Wan AI, GitHub ve Hugging Face üzerinde birden fazla ana akım çerçeveyi tam olarak destekliyor. Gradio deneyimini ve xDiT ile paralel hızlandırılmış çıkarımı destekliyor. Diffusers ve ComfyUI ile entegrasyon hızla uygulanıyor ve geliştiriciler için tek tıkla çıkarım dağıtımını kolaylaştırıyor. Bu, sadece geliştirme eşiğini düşürmekle kalmıyor, aynı zamanda hızlı prototipleme veya verimli üretim dağıtımı için farklı ihtiyaçlara sahip kullanıcılar için esnek seçenekler sunuyor.
Açık Kaynak Topluluğu Bağlantıları:
Github: https://github.com/Wan-Video HuggingFace: https://huggingface.co/Wan-AI
Ek: Wan AI Model Demo Gösterimi
Çince metin oluşturmayı destekleyen ve aynı zamanda hem Çince hem de İngilizce metin efektleri oluşturmayı sağlayan ilk video oluşturma modeli:
Daha İstikrarlı ve Karmaşık Hareket Oluşturma Yetenekleri:
Daha Esnek Kamera Kontrol Yetenekleri::
Gelişmiş Doku, Çeşitli Stiller ve Birden Fazla En-Boy Oranı:
Görüntüden Videoya Oluşturma, Yaratımı Daha Kontrollü Hale Getirme: