अलीबाबा वान AI, ओपन सोर्स!

मूल सामग्री को हिंदी में अनुवाद करें, URL को बनाए रखें, यदि मूल सामग्री में HTML टैग हैं तो उन्हें बनाए रखें, परिणाम में अतिरिक्त HTML टैग न जोड़ें, विशेष नामों को अनुवादित न करें। सीधे अनुवादित परिणाम लौटाएं, कोई अन्य सामग्री नहीं।

Alibaba Cloud का वीडियो जनरेशन मॉडल, Wan 2.1 (Wan), Apache 2.0 लाइसेंस के तहत ओपन-सोर्स किया गया है। इस रिलीज़ में 14B और 1.3B पैरामीटर वर्ज़न के लिए सभी इंफेरेंस कोड और वेट्स शामिल हैं, जो टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो टास्क्स को सपोर्ट करते हैं। दुनिया भर के डेवलपर्स GitHub, HuggingFace, और Modao कम्युनिटी पर मॉडल को एक्सेस और अनुभव कर सकते हैं। wan2.1_AI.webp

मॉडल के ओपन-सोर्स पैरामीटर वर्ज़न:

Wan 2.1 मॉडल का 14B वर्ज़न

  • परफॉर्मेंस: इंस्ट्रक्शन फॉलोइंग, कॉम्प्लेक्स मोशन जनरेशन, फिजिकल मॉडलिंग, और टेक्स्ट-टू-वीडियो जनरेशन में उत्कृष्ट।
  • बेंचमार्क: अथॉरिटेटिव VBench इवैल्यूएशन सेट में 86.22% का टोटल स्कोर हासिल किया, जो Sora, Luma, और Pika जैसे अन्य मॉडल्स को काफी पीछे छोड़ता है और पहले स्थान पर है।

Wan 2.1 मॉडल का 1.3B वर्ज़न

  • परफॉर्मेंस: बड़े ओपन-सोर्स मॉडल्स को पीछे छोड़ता है और कुछ क्लोज्ड-सोर्स मॉडल्स के साथ मेल खाता है।
  • हार्डवेयर आवश्यकताएं: केवल 8.2GB VRAM वाले कंज्यूमर-ग्रेड GPU पर चल सकता है, 480P वीडियो जनरेट करने में सक्षम।
  • एप्लिकेशन्स: सेकेंडरी मॉडल डेवलपमेंट और अकादमिक रिसर्च के लिए उपयुक्त।

wan2.1_AI_2.webp

2023 से, Alibaba Cloud बड़े मॉडल्स को ओपन-सोर्स करने के लिए प्रतिबद्ध है। Qwen से डेरिवेटिव मॉडल्स की संख्या 100,000 से अधिक हो गई है, जो इसे ग्लोबली सबसे बड़ा AI मॉडल फैमिली बनाता है। Wan 2.1 के ओपन-सोर्स होने के साथ, Alibaba Cloud ने अब अपने दो फाउंडेशनल मॉडल्स को पूरी तरह से ओपन-सोर्स कर दिया है, जिससे मल्टीमॉडल, फुल-स्केल बड़े मॉडल्स का ओपन-सोर्स स्टेटस हासिल हो गया है।

Wan 2.1 (Wan) मॉडल का टेक्निकल एनालिसिस

मॉडल परफॉर्मेंस

Wan 2.1 मॉडल विभिन्न इंटरनल और एक्सटर्नल बेंचमार्क टेस्ट्स में मौजूदा ओपन-सोर्स मॉडल्स और टॉप कमर्शियल क्लोज्ड-सोर्स मॉडल्स को पीछे छोड़ता है। यह स्पिनिंग, जंपिंग, टर्निंग, और रोलिंग जैसे कॉम्प्लेक्स ह्यूमन बॉडी मूवमेंट्स को स्थिरता से प्रदर्शित कर सकता है, और कॉलिज़न, रिबाउंड, और कट्स जैसे कॉम्प्लेक्स रियल-वर्ल्ड फिजिकल सीनारियो को सटीकता से पुन: उत्पन्न कर सकता है।

wan2.1_AI_3

इंस्ट्रक्शन-फॉलोइंग क्षमताओं के मामले में, मॉडल चीनी और अंग्रेजी दोनों में लंबे टेक्स्टुअल इंस्ट्रक्शन को सटीकता से समझ सकता है, और विभिन्न सीन ट्रांजिशन्स और कैरेक्टर इंटरैक्शन्स को वफादारी से पुन: उत्पन्न कर सकता है।

wan2.1_AI_4

की टेक्नोलॉजीज

मुख्यधारा के DiT और लीनियर नॉइज़ शेड्यूल Flow Matching पैराडाइम्स पर आधारित, Wan AI लार्ज मॉडल ने जनरेटिव क्षमताओं में महत्वपूर्ण प्रगति की है, जिसमें एक एफिशिएंट कॉज़ल 3D VAE, स्केलेबल प्री-ट्रेनिंग स्ट्रैटेजीज, लार्ज-स्केल डेटा पाइपलाइन्स का निर्माण, और ऑटोमेटेड इवैल्यूएशन मेट्रिक्स का कार्यान्वयन शामिल है। इन इनोवेशन्स ने मिलकर मॉडल की समग्र परफॉर्मेंस को बढ़ाया है।

एफिशिएंट कॉज़ल 3D VAE: Wan AI ने वीडियो जनरेशन के लिए विशेष रूप से डिज़ाइन किए गए एक नए कॉज़ल 3D VAE आर्किटेक्चर का विकास किया है, जिसमें स्पेसियोटेम्पोरल कंप्रेशन को बेहतर बनाने, मेमोरी यूज़ेज को कम करने, और टेम्पोरल कॉज़लिटी को सुनिश्चित करने के लिए विभिन्न स्ट्रैटेजीज शामिल हैं।

Wan AI

वीडियो डिफ्यूज़न ट्रांसफॉर्मर: Wan AI मॉडल आर्किटेक्चर मुख्यधारा के वीडियो डिफ्यूज़न ट्रांसफॉर्मर स्ट्रक्चर पर आधारित है। यह Full Attention मेकेनिज्म के माध्यम से लॉन्ग-टर्म स्पेसियोटेम्पोरल डिपेंडेंसीज़ के प्रभावी मॉडलिंग को सुनिश्चित करता है, जिससे टेम्पोरली और स्पेसियली कंसिस्टेंट वीडियो जनरेशन हासिल होता है।

Wan AI

मॉडल ट्रेनिंग और इंफेरेंस एफिशिएंसी ऑप्टिमाइज़ेशन: ट्रेनिंग फेज़ के दौरान, टेक्स्ट और वीडियो एन्कोडिंग मॉड्यूल्स के लिए, हम Data Parallelism (DP) और Fully Sharded Data Parallelism (FSDP) को मिलाकर एक डिस्ट्रिब्यूटेड स्ट्रैटेजी अपनाते हैं। DiT मॉड्यूल के लिए, हम DP, FSDP, RingAttention, और Ulysses को मिलाकर एक हाइब्रिड पैरेलल स्ट्रैटेजी अपनाते हैं। इंफेरेंस फेज़ के दौरान, मल्टीपल GPU का उपयोग करके एक सिंगल वीडियो जनरेट करने की लेटेंसी को कम करने के लिए, हमें Collective Parallelism (CP) को डिस्ट्रिब्यूटेड एक्सेलेरेशन के लिए चुनना होता है। इसके अलावा, जब मॉडल बड़ा होता है, तो मॉडल स्लाइसिंग की भी आवश्यकता होती है।

wan_ai.webp

ओपन-सोर्स कम्युनिटी फ्रेंडली

Wan AI ने GitHub और Hugging Face पर मल्टीपल मुख्यधारा के फ्रेमवर्क्स को पूरी तरह से सपोर्ट किया है। यह पहले से ही Gradio अनुभव और xDiT के साथ पैरेलल एक्सेलेरेटेड इंफेरेंस को सपोर्ट करता है। Diffusers और ComfyUI के साथ इंटीग्रेशन भी तेजी से कार्यान्वित किया जा रहा है, जिससे डेवलपर्स के लिए वन-क्लिक इंफेरेंस डिप्लॉयमेंट को सुविधाजनक बनाया जा सके। यह न केवल डेवलपमेंट थ्रेशोल्ड को कम करता है, बल्कि विभिन्न आवश्यकताओं वाले यूज़र्स के लिए फ्लेक्सिबल ऑप्शन्स भी प्रदान करता है, चाहे वह रैपिड प्रोटोटाइपिंग के लिए हो या एफिशिएंट प्रोडक्शन डिप्लॉयमेंट के लिए।

ओपन-सोर्स कम्युनिटी लिंक्स:

Github: https://github.com/Wan-Video HuggingFace: https://huggingface.co/Wan-AI

अपेंडिक्स: Wan AI मॉडल डेमो शोकेस

पहला वीडियो जनरेशन मॉडल जो चीनी टेक्स्ट जनरेशन को सपोर्ट करता है और साथ ही चीनी और अंग्रेजी दोनों में टेक्स्ट इफेक्ट्स जनरेशन को सक्षम बनाता है: wan2.1_AI_5 wan2.1_AI_6 अधिक स्थिर और जटिल मोशन जनरेशन क्षमताएं: wan2.1_AI_7 wan2.1_AI_8 अधिक लचीली कैमरा कंट्रोल क्षमताएं:wan2.1_AI_9 wan2.1_AI_10 उन्नत टेक्स्चर, विविध स्टाइल्स, और मल्टीपल एस्पेक्ट रेशियो:wan2.1_AI_11 wan2.1_AI_12 इमेज-टू-वीडियो जनरेशन, जिससे क्रिएशन को अधिक कंट्रोलेबल बनाया जा सके: wan2.1_AI_13 wan2.1_AI_14