Wan 2.1 & WanX 2.1 & Wan AI
Wan AI द्वारा Wan 2.1 क्या है?
Wan AI अलीबाबा ग्रुप की टोंगयी लैब द्वारा विकसित एक उन्नत और शक्तिशाली विजुअल जनरेशन मॉडल है। यह टेक्स्ट, इमेज और अन्य कंट्रोल सिग्नल के आधार पर वीडियो जनरेट कर सकता है। Wan 2.1 सीरीज के मॉडल अब पूरी तरह से ओपन-सोर्स हैं।Eksplorasi contoh
Wan AI का अवलोकन
SOTA प्रदर्शन
Wan 2.1 कई बेंचमार्क में मौजूदा ओपन-सोर्स मॉडल और अत्याधुनिक व्यावसायिक समाधानों से लगातार बेहतर प्रदर्शन करता है।
उपभोक्ता-श्रेणी के GPU का समर्थन
T2V-1.3B मॉडल को केवल 8.19 GB VRAM की आवश्यकता होती है, जो लगभग सभी उपभोक्ता-श्रेणी के GPU के साथ संगत है। यह RTX 4090 पर लगभग 4 मिनट में 5-सेकंड का 480P वीडियो जनरेट कर सकता है (क्वांटाइजेशन जैसी ऑप्टिमाइजेशन तकनीकों के बिना)। इसका प्रदर्शन कुछ क्लोज्ड-सोर्स मॉडल के बराबर भी है।
बहुविध कार्य
Wan 2.1 टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो, वीडियो एडिटिंग, टेक्स्ट-टू-इमेज, और वीडियो-टू-ऑडियो में उत्कृष्ट है, जो वीडियो जनरेशन के क्षेत्र को आगे बढ़ाता है।
विजुअल टेक्स्ट जनरेशन
Wan 2.1 चीनी और अंग्रेजी दोनों टेक्स्ट को जनरेट करने में सक्षम पहला वीडियो मॉडल है, जिसमें मजबूत टेक्स्ट जनरेशन की विशेषता है जो इसके व्यावहारिक अनुप्रयोगों को बढ़ाती है।
Wan AI का शक्तिशाली वीडियो VAE
Wan-VAE असाधारण दक्षता और प्रदर्शन प्रदान करता है, किसी भी लंबाई के 1080P वीडियो को एनकोड और डिकोड करते हुए टेम्पोरल जानकारी को संरक्षित करता है, जो इसे वीडियो और इमेज जनरेशन के लिए एक आदर्श आधार बनाता है।
Wan AI की विशेषताएं
Wan AI द्वारा जटिल गतियां
व्यापक शारीरिक गतिविधियों, जटिल घूर्णन, गतिशील दृश्य परिवर्तन और तरल कैमरा गतियों वाले यथार्थवादी वीडियो बनाने में उत्कृष्ट है।
Wan AI द्वारा भौतिक सिमुलेशन
वास्तविक दुनिया की भौतिकी और यथार्थवादी वस्तु इंटरैक्शन को सटीक रूप से सिमुलेट करने वाले वीडियो जनरेट करता है।
Wan AI द्वारा सिनेमैटिक गुणवत्ता
समृद्ध बनावट और विभिन्न स्टाइलाइज्ड प्रभावों के साथ फिल्म जैसे विजुअल प्रदान करता है।
Wan AI द्वारा नियंत्रणीय संपादन
इमेज या वीडियो संदर्भों का उपयोग करके सटीक संपादन के लिए एक सार्वभौमिक संपादन मॉडल की विशेषता है।
Wan AI द्वारा विजुअल टेक्स्ट जनरेशन
टेक्स्ट प्रॉम्प्ट से सीधे वीडियो में टेक्स्ट और गतिशील टेक्स्ट प्रभाव बनाता है।
8-बिट रेसिंग
प्रॉम्प्ट: एक रेट्रो 8-बिट शैली का कार रेस इंट्रो एनिमेशन। पिक्सेल वाली मसल कारें, प्रत्येक अलग-अलग रंगों और डिजाइनों के साथ, एक विशाल, पिक्सेल वाले रेगिस्तान परिदृश्य में स्टार्टिंग लाइन पर पंक्तिबद्ध हैं। क्लासिक आर्केड गेम शीर्षकों की याद दिलाते हुए, कारों के ऊपर बड़ा, पिक्सेल वाला टेक्स्ट "WANX RACING" जीवंत नियॉन रंगों में चमकता है। कैमरा दृश्य में पैन करता है, रेट्रो सौंदर्य और टेक्स्ट को हाइलाइट करता है। पृष्ठभूमि में एक सरल, पिक्सेल वाला रेगिस्तान परिदृश्य है जिसमें ब्लॉकी सूर्यास्त दृश्य पर गर्म, सुनहरी रंग बिखेरता है। पूरा वातावरण जीवंत, पिक्सेल वाले नियॉन रंगों में नहाया हुआ है, जो नॉस्टैल्जिक भावना को बढ़ाता है।
मैरी क्रिसमस
प्रॉम्प्ट: यथार्थवादी, सुंदर ढंग से सजाया गया क्रिसमस पार्टी का दृश्य, रंगीन रोशनी और उपहारों से सजे क्रिसमस के पेड़, फायरप्लेस में नृत्य करती लपटें, क्रिसमस टोपी पहने जिंजरब्रेड लोग पेड़ के चारों ओर नृत्य कर रहे हैं, और मेजें ग्रिल्ड टर्की और अन्य व्यंजनों से भरी हुई हैं। स्क्रीन पर भव्य टेक्स्ट इफेक्ट्स पॉप अप होते हैं: "मैरी क्रिसमस!" स्क्रीन भव्य, परिष्कृत और संक्षिप्त है।
मैड रेसिंग
प्रॉम्प्ट: एक काल्पनिक एक्शन मूवी के लिए रेट्रो 70 के दशक की शैली का टाइटल सीक्वेंस। हाथ से खींचा गया, स्टाइलाइज्ड टेक्स्ट "WANX" कार चेज़, विस्फोटों और साहसिक स्टंट के तेज-तर्रार क्लिप्स पर ओवरले के साथ स्क्रीन पर गतिशील रूप से प्रकट होता है। टेक्स्ट बोल्ड, खुरदरा और थोड़ा विकृत है, जो 70 के दशक की एक्शन मूवी सौंदर्यशास्त्र को दर्शाता है। रेट्रो फिल्म ग्रेन इफेक्ट के साथ हाई-ऑक्टेन दृश्यों का एक मोंटाज, गर्म, विंटेज रंगों को प्रदर्शित करता है। सीक्वेंस गोल्डन आवर की रोशनी में नहाए हुए हैं, जो नॉस्टैल्जिक भावना को बढ़ाते हैं...
Wan AI द्वारा ध्वनि प्रभाव और संगीत
विजुअल कंटेंट और लय के साथ पूरी तरह से मेल खाने वाले ध्वनि प्रभाव और पृष्ठभूमि संगीत जनरेट करता है।
पानी में प्रवेश करते फेरेट
प्रॉम्प्ट: कैमरा एक लकड़ी के लट्ठे पर खड़े होकर, निचले कोण से दूर से पास की ओर तेजी से घूमता है। दूर के दृश्य में, एक सफेद फेरेट अचानक दिखाई देता है, जो लट्ठे के साथ खेलता है और पानी में कूदता है, फिर पानी से बाहर तैरता है और अपना सिर बाहर निकालता है। इस क्षण में, कैमरा सफेद फेरेट का क्लोज-अप दिखाने के लिए जूम इन करता है। इसके बगल में कई बेरी के पेड़ों पर पानी छिड़का हुआ है, जमीन पर काई और बर्फ की परत है, और पानी की सतह हरी पत्तियों से ढकी हुई है। पृष्ठभूमि में सफेद बर्च के पेड़ हैं।
Wan AI का कॉन्सर्ट
प्रॉम्प्ट: वियना हॉल में एक समूह सिम्फनी प्रस्तुत कर रहा है।
बर्फ गिरना
प्रॉम्प्ट: वियना हॉल में एक समूह सिम्फनी प्रस्तुत कर रहा है।
उत्पाद विशेषताएं
हमारे उत्पाद के माध्यम से, आप प्रेरणादायक वीडियो सामग्री तक पहुंचने के लिए उपयोगकर्ता-अनुकूल अनुभव के साथ हमारे मॉडल का निर्बाध उपयोग कर सकते हैं।
Wan AI ओपन सोर्स
इस रेपो में, हम वीडियो जनरेशन की सीमाओं को आगे बढ़ाने के लिए डिज़ाइन किए गए वीडियो फाउंडेशन मॉडल के एक व्यापक और खुले सूट, Wan 2.1 के लिए कोड और वेट्स जारी करते हैं।
I2V-14B मॉडल प्रमुख क्लोज्ड-सोर्स मॉडल के साथ-साथ सभी मौजूदा ओपन-सोर्स मॉडल से बेहतर प्रदर्शन करता है, SOTA प्रदर्शन प्राप्त करता है। यह इनपुट टेक्स्ट और इमेज के आधार पर जटिल विजुअल सीन और मोशन पैटर्न प्रदर्शित करने वाले वीडियो जनरेट करने में सक्षम है, जिसमें 480P और 720P रिज़ॉल्यूशन मॉडल दोनों शामिल हैं।
Wan2.1-T2V-14B
😊480-720PT2V-14B मॉडल ओपन-सोर्स और क्लोज्ड-सोर्स मॉडल दोनों में एक नया SOTA प्रदर्शन स्थापित करता है, जो पर्याप्त मोशन डायनेमिक्स के साथ उच्च-गुणवत्ता वाले विजुअल जनरेट करने की अपनी क्षमता प्रदर्शित करता है। यह चीनी और अंग्रेजी दोनों टेक्स्ट उत्पन्न करने में सक्षम एकमात्र वीडियो मॉडल भी है और 480P और 720P रिज़ॉल्यूशन दोनों पर वीडियो जनरेशन का समर्थन करता है।
Wan2.1-T2V-1.3B
😊480PT2V-1.3B मॉडल लगभग सभी उपभोक्ता-श्रेणी के GPU पर वीडियो जनरेशन का समर्थन करता है, जिसे 5-सेकंड का 480P वीडियो उत्पन्न करने के लिए केवल 8.19 GB BRAM की आवश्यकता होती है, RTX 4090 GPU पर केवल 4 मिनट का आउटपुट समय। पूर्व-प्रशिक्षण और आसवन प्रक्रियाओं के माध्यम से, यह बड़े ओपन-सोर्स मॉडल को पार कर जाता है और कुछ उन्नत क्लोज्ड-सोर्स मॉडल के बराबर प्रदर्शन प्राप्त करता है।
Wan2.1-FLF2V-14B-720P
Wan 2.1 फर्स्ट-लास्ट-फ्रेम-टू-वीडियो (FLF2V) एक AI-आधारित वीडियो जनरेशन तकनीक है जो निर्बाध वीडियो बनाने के लिए दिए गए प्रारंभिक और अंतिम फ्रेम के बीच मध्यवर्ती फ्रेम्स को संश्लेषित करती है। यह 14B-पैरामीटर मॉडल का उपयोग करती है, मल्टी-GPU त्वरित अनुमान का समर्थन करती है, और इंटरैक्टिव टेस्टिंग के लिए Gradio डेमो के साथ पूर्व-प्रशिक्षित चेकपॉइंट्स प्रदान करती है। अनुप्रयोगों में वीडियो इनपेंटिंग, एनिमेशन प्रोडक्शन और अधिक शामिल हैं।
तकनीकी रिपोर्ट
अधिक विवरण के लिए हमारी व्यापक तकनीकी रिपोर्ट की आगामी रिलीज की प्रतीक्षा करें।
मुख्यधारा के डिफ्यूजन ट्रांसफॉर्मर पैराडाइम पर निर्मित, Wan 2.1 हमारे नवीन स्पेटियो-टेम्पोरल वेरिएशनल ऑटोएनकोडर (VAE), स्केलेबल पूर्व-प्रशिक्षण रणनीतियों, बड़े पैमाने पर डेटा निर्माण और स्वचालित मूल्यांकन मेट्रिक्स सहित कई नवाचारों के माध्यम से जनरेटिव क्षमताओं में महत्वपूर्ण प्रगति प्राप्त करता है। ये योगदान सामूहिक रूप से मॉडल के प्रदर्शन और बहुमुखी प्रतिभा को बढ़ाते हैं।
Wan AI को क्यों चुनें?
उद्योग-अग्रणी तकनीक और अद्वितीय क्षमताओं के साथ AI वीडियो जनरेशन का भविष्य अनुभव करें।
अल्ट्रा-हाई-क्वालिटी आउटपुट
जीवंत विवरणों और सटीक भौतिक सिमुलेशन के साथ सिनेमैटिक-गुणवत्ता वाले वीडियो जनरेट करें।
उन्नत गति नियंत्रण
जटिल गतियों, घूर्णन और प्राकृतिक शरीर गतिशीलता को निर्बाध रूप से संभालें।
वैश्विक भाषा समर्थन
विश्वव्यापी दर्शकों के लिए बहुभाषी टेक्स्ट इफेक्ट्स के साथ वीडियो बनाएं।
बिजली की गति से प्रोसेसिंग
असीमित 1080P वीडियो जनरेशन के लिए नेक्स्ट-जेन 3D कॉज़ल VAE द्वारा संचालित।
किफायती उत्कृष्टता
पारंपरिक लागत के एक अंश में पेशेवर-ग्रेड वीडियो प्रोडक्शन।
अक्सर पूछे जाने वाले प्रश्न
Wan AI द्वारा Wan 2.1 क्या है और यह कैसे काम करता है?
Wan AI द्वारा Wan 2.1 अलीबाबा क्लाउड का अत्याधुनिक वीडियो जनरेशन मॉडल है जो टेक्स्ट विवरणों को आकर्षक, उच्च-गुणवत्ता वाले वीडियो में बदलता है। वेरिएशनल ऑटोएनकोडर्स (VAE) और डिफ्यूजन ट्रांसफॉर्मर्स (DiT) जैसी उन्नत तकनीकों का लाभ उठाते हुए, यह यथार्थवादी विजुअल्स, स्मूथ ट्रांजिशन और सटीक भौतिकी सुनिश्चित करता है जो एक वास्तव में इमर्सिव अनुभव प्रदान करता है।
क्या मुझे Wan AI द्वारा Wan 2.1 का उपयोग करने के लिए तकनीकी विशेषज्ञता की आवश्यकता है?
Wan AI द्वारा Wan 2.1 को सरलता को ध्यान में रखते हुए डिज़ाइन किया गया है। इसका सहज इंटरफ़ेस किसी को भी उन्नत तकनीकी कौशल के बिना भी आसानी से पेशेवर-गुणवत्ता वाले वीडियो बनाने की अनुमति देता है। चाहे आप शुरुआती हों या प्रो, आपको प्लेटफ़ॉर्म को नेविगेट करना और उपयोग करना आसान लगेगा।
मैं Wan AI द्वारा Wan 2.1 के साथ किस प्रकार के वीडियो बना सकता हूं?
Wan AI द्वारा Wan 2.1 बहुमुखी है और विभिन्न प्रकार की वीडियो सामग्री जनरेट करने में सक्षम है। नृत्य और खेल जैसे गतिशील दृश्यों से लेकर शैक्षिक ट्यूटोरियल और ऐतिहासिक वीडियो पुनर्स्थापना तक, यह आपकी रचनात्मक दृष्टि को जीवंत करने में सक्षम बनाता है।
एक वीडियो जनरेट करने में कितना समय लगता है?
वीडियो जनरेशन का समय आपके प्रोजेक्ट की जटिलता और लंबाई पर निर्भर करता है। तेज परिणामों के लिए, प्रो संस्करण त्वरित प्रोसेसिंग गति प्रदान करता है, जो समय-संवेदनशील कार्यों के लिए आदर्श है।
क्या मैं वीडियो आउटपुट को कस्टमाइज कर सकता हूं?
बिल्कुल! Wan AI द्वारा Wan 2.1 व्यापक कस्टमाइजेशन विकल्प प्रदान करता है, जो आपको रिज़ॉल्यूशन, फ्रेम रेट, मूवमेंट कॉम्प्लेक्सिटी और अधिक को समायोजित करने की अनुमति देता है। अपनी विशिष्ट आवश्यकताओं और प्राथमिकताओं को पूरा करने के लिए अपने वीडियो को अनुकूलित करें।
वीडियो जनरेशन के लिए Wan AI द्वारा Wan 2.1 किन इनपुट फॉर्मेट का समर्थन करता है?
Wan AI द्वारा Wan 2.1 मुख्य रूप से वीडियो जनरेशन के लिए टेक्स्ट विवरण के इनपुट का समर्थन करता है। आप दृश्य, कार्यों और वांछित विजुअल प्रभावों का वर्णन करने वाले विस्तृत टेक्स्टुअल प्रॉम्प्ट प्रदान कर सकते हैं। इसके अतिरिक्त, यह भविष्य के अपडेट में बेहतर संदर्भ के लिए इमेज इनपुट का समर्थन कर सकता है।
क्या Wan AI द्वारा Wan 2.1 कई भाषाओं में वीडियो जनरेट कर सकता है?
हां, Wan AI द्वारा Wan 2.1 बहुभाषी टेक्स्ट इनपुट का समर्थन करता है, जो आपको विभिन्न भाषाओं में विवरण के आधार पर वीडियो जनरेट करने की अनुमति देता है। हालांकि, आउटपुट की गुणवत्ता भाषा और विवरण की जटिलता के आधार पर भिन्न हो सकती है।
क्या Wan AI द्वारा Wan 2.1 द्वारा जनरेट की जा सकने वाली वीडियो की लंबाई की कोई सीमा है?
जनरेट की गई वीडियो की लंबाई सब्सक्रिप्शन प्लान पर निर्भर करती है। मुफ्त संस्करण में वीडियो अवधि पर सीमाएं हो सकती हैं, जबकि प्रो संस्करण लंबे और अधिक जटिल वीडियो जनरेशन का समर्थन करता है। विशिष्ट सीमाएं प्लेटफ़ॉर्म के दस्तावेज़ीकरण में पाई जा सकती हैं।
Wan AI द्वारा Wan 2.1 जनरेट किए गए वीडियो की गुणवत्ता कैसे सुनिश्चित करता है?
Wan AI द्वारा Wan 2.1 उच्च-गुणवत्ता वाले आउटपुट सुनिश्चित करने के लिए वेरिएशनल ऑटोएनकोडर्स (VAE) और डिफ्यूजन ट्रांसफॉर्मर्स (DiT) जैसी उन्नत तकनीकों का लाभ उठाता है। ये तकनीकें यथार्थवादी विजुअल्स, स्मूथ ट्रांजिशन और सटीक भौतिकी सिमुलेशन को सक्षम बनाती हैं।
Wan AI द्वारा Wan 2.1 कई पात्रों वाले जटिल दृश्यों को कैसे संभालता है?
Wan AI द्वारा Wan 2.1 को टेक्स्ट इनपुट में वर्णित संबंधों और इंटरैक्शन का विश्लेषण करके कई पात्रों वाले जटिल दृश्यों को संभालने के लिए डिज़ाइन किया गया है। यह यथार्थवादी पोजिशनिंग, मूवमेंट और पात्रों के बीच इंटरैक्शन सुनिश्चित करने के लिए उन्नत एल्गोरिदम का उपयोग करता है।