Alibaba Wan AI、オープンソース!

以下の内容を日本語に翻訳します。URLはそのまま保持し、原文にHTMLタグがある場合は保持します。返される結果に余分なHTMLタグを追加しないでください。専門用語はそのまま翻訳せずに保持します。翻訳された結果を直接返し、それ以外の内容は含めないでください。

Alibaba Cloudのビデオ生成モデル、Wan 2.1(Wan)は、Apache 2.0ライセンスの下でオープンソース化されました。このリリースには、14Bと1.3Bのパラメータバージョンのすべての推論コードと重みが含まれており、テキストからビデオ、画像からビデオのタスクをサポートしています。世界中の開発者は、GitHub、HuggingFace、Modaoコミュニティでモデルにアクセスし、体験することができます。 wan2.1_AI.webp

モデルのオープンソース化されたパラメータバージョン:

Wan 2.1モデルの14Bバージョン

  • 性能: 指示の追従、複雑なモーション生成、物理モデリング、テキストからビデオ生成に優れています。
  • ベンチマーク: 権威あるVBench評価セットで86.22%の総合スコアを達成し、Sora、Luma、Pikaなどの他のモデルを大幅に上回り、1位を獲得しました。

Wan 2.1モデルの1.3Bバージョン

  • 性能: より大きなオープンソースモデルを上回り、一部のクローズドソースモデルにも匹敵します。
  • ハードウェア要件: 8.2GBのVRAMを搭載したコンシューマーグレードのGPUで動作可能で、480Pのビデオを生成できます。
  • アプリケーション: 二次モデル開発や学術研究に適しています。

wan2.1_AI_2.webp

2023年以来、Alibaba Cloudは大規模モデルのオープンソース化に取り組んでいます。Qwenから派生したモデルの数は10万を超え、世界最大のAIモデルファミリーとなっています。Wan 2.1のオープンソース化により、Alibaba Cloudは2つの基盤モデルを完全にオープンソース化し、マルチモーダル、フルスケールの大規模モデルのオープンソース化を達成しました。

Wan 2.1(Wan)モデルの技術分析

モデル性能

Wan 2.1モデルは、既存のオープンソースモデルやトップクラスの商用クローズドソースモデルをさまざまな内部および外部のベンチマークテストで上回ります。回転、ジャンプ、ターン、ローリングなどの複雑な人体の動きを安定して示し、衝突、反発、切断などの複雑な現実世界の物理シナリオを正確に再現できます。

wan2.1_AI_3

指示追従能力において、モデルは中国語と英語の長いテキスト指示を正確に理解し、さまざまなシーンの遷移やキャラクターのインタラクションを忠実に再現します。

wan2.1_AI_4

主要技術

主流のDiTと線形ノイズスケジュールFlow Matchingパラダイムに基づき、Wan AI大規模モデルは、効率的な因果3D VAEの開発、スケーラブルな事前学習戦略、大規模データパイプラインの構築、自動評価指標の実装など、一連の技術革新を通じて生成能力の大幅な進歩を達成しました。これらの革新がモデルの全体的な性能を向上させました。

効率的な因果3D VAE: Wan AIは、ビデオ生成に特化した新しい因果3D VAEアーキテクチャを開発し、時空間圧縮の改善、メモリ使用量の削減、時間的因果性の確保を図るさまざまな戦略を組み込みました。

Wan AI

ビデオ拡散トランスフォーマー: Wan AIモデルアーキテクチャは、主流のビデオ拡散トランスフォーマー構造に基づいています。Full Attentionメカニズムを通じて長期的な時空間依存関係の効果的なモデリングを確保し、時間的および空間的に一貫したビデオ生成を実現します。

Wan AI

モデルトレーニングと推論効率の最適化: トレーニングフェーズでは、テキストとビデオエンコーディングモジュールに対して、Data Parallelism(DP)とFully Sharded Data Parallelism(FSDP)を組み合わせた分散戦略を採用します。DiTモジュールに対しては、DP、FSDP、RingAttention、Ulyssesを統合したハイブリッド並列戦略を採用します。推論フェーズでは、複数のGPUを使用して単一のビデオを生成する際の遅延を減らすために、Collective Parallelism(CP)を選択して分散加速を行います。また、モデルが大きい場合、モデルスライシングも必要です。

wan_ai.webp

オープンソースコミュニティフレンドリー

Wan AIは、GitHubとHugging Faceで複数の主流フレームワークを完全にサポートしています。すでにGradio体験とxDiTによる並列加速推論をサポートしており、DiffusersとComfyUIとの統合も迅速に進められており、開発者がワンクリックで推論をデプロイできるようにしています。これにより、開発のハードルが下がり、迅速なプロトタイピングや効率的な生産デプロイメントなど、さまざまなニーズを持つユーザーに柔軟な選択肢を提供します。

オープンソースコミュニティリンク:

Github: https://github.com/Wan-Video HuggingFace: https://huggingface.co/Wan-AI

付録: Wan AIモデルデモ展示

中国語テキスト生成をサポートし、同時に中国語と英語のテキストエフェクト生成を可能にする最初のビデオ生成モデル: wan2.1_AI_5 wan2.1_AI_6 より安定した複雑なモーション生成能力: wan2.1_AI_7 wan2.1_AI_8 より柔軟なカメラ制御能力:wan2.1_AI_9 wan2.1_AI_10 高度なテクスチャ、多様なスタイル、複数のアスペクト比:wan2.1_AI_11 wan2.1_AI_12 画像からビデオ生成、創作をよりコントロール可能に: wan2.1_AI_13 wan2.1_AI_14