Wan 2.1 & WanX 2.1 & Wan AI

Was ist Wan 2.1 von Wan?

Wan AI ist ein fortschrittliches und leistungsstarkes visuelles Generierungsmodell, das von Tongyi Lab der entwickelt wurde. Es kann Videos basierend auf Text, Bildern und anderen Steuersignalen generieren. Die Wan 2.1-Modellreihen sind jetzt vollständig Open Source.Entdecken Sie Beispiele

Überblick über Wan AI

👍

SOTA-Leistung

Wan 2.1 übertrifft konsequent bestehende Open-Source-Modelle und kommerzielle Spitzenlösungen in mehreren Benchmarks.

🚀

Unterstützt Consumer-GPUs

Das T2V-1.3B-Modell benötigt nur 8.19 GB VRAM und ist damit mit fast allen Consumer-GPUs kompatibel. Es kann ein 5-Sekunden-480P-Video auf einer RTX 4090 in etwa 4 Minuten generieren (ohne Optimierungstechniken wie Quantisierung). Seine Leistung ist sogar mit einigen geschlossenen Modellen vergleichbar.

🎉

Mehrere Aufgaben

Wan 2.1 glänzt in Text-zu-Video, Bild-zu-Video, Video-Bearbeitung, Text-zu-Bild und Video-zu-Audio und treibt das Feld der Videogenerierung voran.

🔮

Visuelle Textgenerierung

Wan 2.1 ist das erste Videomodell, das sowohl chinesischen als auch englischen Text generieren kann und eine robuste Textgenerierung bietet, die seine praktischen Anwendungen verbessert.

💪

Leistungsstarkes Video-VAE von Wan AI

Wan-VAE bietet hervorragende Effizienz und Leistung, kodiert und dekodiert 1080P-Videos beliebiger Länge und bewahrt dabei zeitliche Informationen, was es zu einer idealen Grundlage für Video- und Bildgenerierung macht.

Funktionen von Wan AI

Komplexe Bewegungen

Glänzt bei der Generierung realistischer Videos mit ausgedehnten Körperbewegungen, komplexen Drehungen, dynamischen Szenenübergängen und flüssigen Kamerabewegungen.

Physikalische Simulation

Generiert Videos, die realistische Physik und echte Objektinteraktionen simulieren.

Kinoreife Qualität

Bietet filmähnliche Visuals mit reichen Texturen und einer Vielzahl von stilisierten Effekten.

Steuerbare Bearbeitung durch Wan AI

Bietet ein universelles Bearbeitungsmodell für präzise Bearbeitungen mit Bild- oder Video-Referenzen.

Visuelle Textgenerierung durch Wan AI

Erstellt Text und dynamische Texteffekte in Videos direkt aus Textvorgaben.

8-Bit-Rennen

Prompt: Eine Retro-8-Bit-Stil-Animation einer Autorennen-Einführung. Pixelige Muscle Cars, jedes mit unterschiedlichen Farben und Designs, reihen sich an einer Startlinie in einer weiten, pixeligen Wüstenlandschaft auf. Große, pixelige Text "WANX RACING" leuchtet in lebhaften Neonfarben über den Autos, erinnert an klassische Arcade-Spieltitel. Die Kamera schwenkt über die Szene und hebt den Retro-Look und den Text hervor. Der Hintergrund zeigt eine einfache, pixelige Wüstenlandschaft mit einem klobigen Sonnenuntergang, der warme, goldene Farbtöne über die Szene wirft. Die gesamte Umgebung ist in lebhaften, pixeligen Neonfarben getaucht, die das nostalgische Gefühl verstärken.

Frohe Weihnachten

Prompt: Realistische, wunderschön dekorierte Weihnachtspartyszene, Weihnachtsbäume geschmückt mit farbigen Lichtern und Geschenken, Flammen tanzen im Kamin, Lebkuchenmänner mit Weihnachtshüten tanzen um den Baum, und Tische gefüllt mit gegrilltem Truthahn und anderen Leckereien. Exquisite Texteffekte erscheinen auf dem Bildschirm: "Frohe Weihnachten!" Der Bildschirm ist exquisit, elegant und prägnant.

Verrücktes Rennen

Prompt: Eine Retro-70er-Jahre-Titel-Sequenz für einen fiktiven Actionfilm. Handgezeichneter, stilisierter Text "WANX" erscheint dynamisch auf dem Bildschirm, überlagert von schnell geschnittenen Clips von Autoverfolgungsjagden, Explosionen und waghalsigen Stunts. Der Text ist kühn, kantig und leicht verzerrt, spiegelt die 70er-Jahre-Actionfilm-Ästhetik wider. Eine Montage von hochtourigen Szenen mit einem Retro-Filmkorneffekt, mit warmen, vintage Farben. Die Sequenzen sind in goldenes Abendlicht getaucht, was das nostalgische Gefühl verstärkt.

Soundeffekte & Musik

Generiert Soundeffekte und Hintergrundmusik, die perfekt mit visuellen Inhalten und Rhythmus übereinstimmen.

Frettchen betreten das Wasser

Prompt: Die Kamera bewegt sich schnell von weit nach nah, mit einem niedrigen Blickwinkel, stehend auf einem Baumstamm. In der Ferne erscheint plötzlich ein weißes Frettchen, spielt mit dem Baumstamm und springt ins Wasser, schwimmt dann aus dem Wasser und streckt den Kopf heraus. In diesem Moment zoomt die Kamera heran, um eine Nahaufnahme des weißen Frettchens zu zeigen. Mehrere Beerenbäume in der Nähe sind mit Wasser bespritzt, Moos und Schnee bedecken den Boden, und die Wasseroberfläche ist mit grünen gefallenen Blättern bedeckt. Der Hintergrund ist weiße Birke.

Konzert von Wan AI

Prompt: Eine Gruppe von Menschen führt eine Sinfonie in der Wiener Halle auf.

Eis fällt

Prompt: Eine Gruppe von Menschen führt eine Sinfonie in der Wiener Halle auf.

Produktfunktionen

Durch unser Produkt können Sie unsere Modelle nahtlos mit einer benutzerfreundlichen Erfahrung nutzen, um Zugang zu inspirierenden Videoinhalten zu erhalten.

Wan AI Open Source

In diesem Repository veröffentlichen wir den Code und die Gewichtungen für Wan2.1, eine umfassende und offene Suite von Videogrundmodellen, die entwickelt wurden, um die Grenzen der Videogenerierung zu verschieben.

Wan2.1-I2V-14B

Das I2V-14B-Modell übertrifft führende geschlossene Modelle sowie alle bestehenden Open-Source-Modelle und erreicht SOTA-Leistung. Es ist in der Lage, Videos zu generieren, die komplexe visuelle Szenen und Bewegungsmuster basierend auf Eingabetext und Bildern zeigen, einschließlich Modellen in 480P- und 720P-Auflösung.

Wan2.1-T2V-14B

😊480-720P

Das T2V-14B-Modell setzt einen neuen SOTA-Standard unter sowohl Open-Source- als auch geschlossenen Modellen und zeigt seine Fähigkeit, hochwertige Visuals mit erheblichen Bewegungsdynamiken zu generieren. Es ist auch das einzige Videomodell, das sowohl chinesischen als auch englischen Text produzieren kann und Videogenerierung in 480P- und 720P-Auflösungen unterstützt.

Wan2.1-T2V-1.3B

😊480P

Das T2V-1.3B-Modell unterstützt die Videogenerierung auf fast allen Consumer-GPUs und benötigt nur 8.19 GB BRAM, um ein 5-Sekunden-480P-Video zu produzieren, mit einer Ausgabezeit von nur 4 Minuten auf einer RTX 4090 GPU. Durch Vorabtraining und Destillationsprozesse übertrifft es größere Open-Source-Modelle und erreicht eine Leistung, die mit einigen fortschrittlichen geschlossenen Modellen vergleichbar ist.

Wan2.1-FLF2V-14B-720P

Wan 2.1 First-Last-Frame-to-Video (FLF2V) ist eine KI-basierte Videogenerierungstechnologie, die Zwischenbilder zwischen einem gegebenen Start- und Endbild synthetisiert, um flüssige Videos zu erzeugen. Sie nutzt ein 14B-Parameter-Modell, unterstützt Multi-GPU-beschleunigte Inferenz und bietet vortrainierte Checkpoints mit einer Gradio-Demo für interaktives Testen. Zu den Anwendungen gehören Video-Inpainting, Animationsproduktion und mehr.

Technischer Bericht

Bleiben Sie dran für die bevorstehende Veröffentlichung unseres umfassenden technischen Berichts für weitere Details.

Aufbauend auf dem Mainstream-Diffusion-Transformer-Paradigma erreicht Wan 2.1 durch eine Reihe von Innovationen, einschließlich unseres neuartigen räumlich-zeitlichen Variational Autoencoders (VAE), skalierbarer Vorabtrainingsstrategien, groß angelegter Datenerstellung und automatisierter Bewertungsmetriken, signifikante Fortschritte in den generativen Fähigkeiten. Diese Beiträge verbessern kollektiv die Leistung und Vielseitigkeit des Modells.

Warum Wan AI wählen?

Erleben Sie die Zukunft der KI-Videogenerierung mit branchenführender Technologie und unübertroffenen Fähigkeiten.

Ultra-hochwertige Ausgabe

Generieren Sie Videos in Kinoqualität mit lebensechten Details und präziser Physiksimulation.

Fortschrittliche Bewegungssteuerung

Nahtlose Handhabung komplexer Bewegungen, Rotationen und natürlicher Körperdynamik.

Globale Sprachunterstützung

Erstellen Sie Videos mit mehrsprachigen Texteffekten für ein weltweites Publikum.

Blitzschnelle Verarbeitung

Angetrieben von 3D-Kausal-VAE der nächsten Generation für unbegrenzte 1080P-Videogenerierung.

Erschwingliche Exzellenz

Professionelle Videoproduktion zu einem Bruchteil der traditionellen Kosten.

Häufig gestellte Fragen

1

Was ist Wan 2.1 von Wan AI und wie funktioniert es?

Wan 2.1 von Wan AI ist das fortschrittlichste Videogenerierungsmodell von Alibaba Cloud, das Textbeschreibungen in atemberaubende, hochwertige Videos umwandelt. Mit fortschrittlichen Technologien wie Variational Autoencodern (VAE) und Diffusion Transformern (DiT) stellt es realistische Visuals, flüssige Übergänge und genaue Physik für ein wirklich immersives Erlebnis sicher.

2

Benötige ich technisches Fachwissen, um Wan 2.1 von Wan AI zu verwenden?

Wan 2.1 von Wan AI ist benutzerfreundlich gestaltet. Seine intuitive Benutzeroberfläche ermöglicht es jedem, professionelle Videos mühelos zu erstellen, auch ohne fortgeschrittene technische Fähigkeiten. Egal, ob Sie Anfänger oder Profi sind, Sie werden die Plattform einfach zu navigieren und zu verwenden finden.

3

Welche Arten von Videos kann ich mit Wan 2.1 von Wan AI erstellen?

Wan 2.1 von Wan AI ist vielseitig und kann eine Vielzahl von Video-Inhalten generieren. Von dynamischen Szenen wie Tanz und Sport bis hin zu Lehrvideos und historischen Video-Restaurierungen ermöglicht es Ihnen, Ihre kreative Vision zum Leben zu erwecken.

4

Wie lange dauert es, ein Video zu generieren?

Die Videogenerierungszeit hängt von der Komplexität und Länge Ihres Projekts ab. Für schnellere Ergebnisse bietet die Pro-Version beschleunigte Verarbeitungsgeschwindigkeiten, die ideal für zeitkritische Aufgaben sind.

5

Kann ich die Videoausgabe anpassen?

Absolut! Wan 2.1 von Wan AI bietet umfangreiche Anpassungsoptionen, mit denen Sie Auflösung, Bildrate, Bewegungskomplexität und mehr anpassen können. Passen Sie Ihre Videos an Ihre spezifischen Bedürfnisse und Vorlieben an.

6

Welche Eingabeformate unterstützt Wan 2.1 von Wan AI für die Videogenerierung?

Wan 2.1 von Wan AI unterstützt hauptsächlich Textbeschreibungen als Eingabe für die Videogenerierung. Sie können detaillierte Textvorgaben bereitstellen, die die Szene, Aktionen und gewünschten visuellen Effekte beschreiben. Zusätzlich kann es in zukünftigen Updates Bild-Eingaben für erweiterten Kontext unterstützen.

7

Kann Wan 2.1 von Wan AI Videos in mehreren Sprachen generieren?

Ja, Wan 2.1 von Wan AI unterstützt mehrsprachige Texteingaben, sodass Sie Videos basierend auf Beschreibungen in verschiedenen Sprachen generieren können. Die Qualität der Ausgabe kann jedoch je nach Sprache und Komplexität der Beschreibung variieren.

8

Gibt es eine Begrenzung für die Länge der Videos, die Wan 2.1 von Wan AI generieren kann?

Die Länge der generierten Videos hängt vom Abonnementplan ab. Die kostenlose Version hat möglicherweise Einschränkungen bei der Videodauer, während die Pro-Version längere und komplexere Videogenerierungen unterstützt. Spezifische Grenzen finden Sie in der Dokumentation der Plattform.

9

Wie stellt Wan 2.1 von Wan AI die Qualität der generierten Videos sicher?

Wan 2.1 von Wan AI nutzt fortschrittliche Technologien wie Variational Autoencodern (VAE) und Diffusion Transformern (DiT), um eine hohe Qualität der Ausgabe sicherzustellen. Diese Technologien ermöglichen realistische Visuals, flüssige Übergänge und genaue Physiksimulationen.

10

Wie geht Wan 2.1 von Wan AI mit komplexen Szenen mit mehreren Charakteren um?

Wan 2.1 von Wan AI ist so konzipiert, dass es komplexe Szenen mit mehreren Charakteren bewältigen kann, indem es die in der Texteingabe beschriebenen Beziehungen und Interaktionen analysiert. Es verwendet fortschrittliche Algorithmen, um realistische Positionierungen, Bewegungen und Interaktionen zwischen den Charakteren sicherzustellen.