Wan 2.1 & WanX 2.1 & Wan AI

¿Qué es Wan 2.1 de Wan AI?

Wan AI es un modelo de generación visual avanzado y potente desarrollado por Tongyi Lab. Puede generar videos basados en texto, imágenes y otras señales de control. Los modelos de la serie Wan 2.1 ahora son completamente de código abierto.Explora ejemplos

Descripción General de Wan AI

👍

Rendimiento SOTA

Wan 2.1 supera consistentemente a los modelos de código abierto existentes y a las soluciones comerciales de última generación en múltiples benchmarks.

🚀

Compatible con GPUs de Consumo

El modelo T2V-1.3B requiere solo 8.19 GB de VRAM, lo que lo hace compatible con casi todas las GPUs de consumo. Puede generar un video de 5 segundos en 480P en una RTX 4090 en aproximadamente 4 minutos (sin técnicas de optimización como la cuantización). Su rendimiento es incluso comparable a algunos modelos de código cerrado.

🎉

Múltiples Tareas

Wan 2.1 sobresale en Texto a Video, Imagen a Video, Edición de Videos, Texto a Imagen y Video a Audio, avanzando en el campo de la generación de videos.

🔮

Generación de Texto Visual

Wan 2.1 es el primer modelo de video capaz de generar texto tanto en chino como en inglés, con una generación de texto robusta que mejora sus aplicaciones prácticas.

💪

Potente VAE de Video de Wan AI

Wan-VAE ofrece una eficiencia y rendimiento excepcionales, codificando y decodificando videos de 1080P de cualquier longitud mientras preserva la información temporal, lo que lo convierte en una base ideal para la generación de videos e imágenes.

Características de Wan AI

Movimientos Complejos

Excelente en la generación de videos realistas con movimientos corporales extensos, rotaciones complejas, transiciones de escenas dinámicas y movimientos fluidos de la cámara.

Simulación Física

Genera videos que simulan con precisión la física del mundo real y las interacciones realistas de los objetos.

Calidad Cinematográfica

Ofrece visuales de calidad cinematográfica con texturas ricas y una variedad de efectos estilizados.

Edición Controlable por Wan AI

Cuenta con un modelo de edición universal para ediciones precisas utilizando referencias de imágenes o videos.

Generación de Texto Visual por Wan AI

Crea texto y efectos de texto dinámicos en videos directamente a partir de indicaciones de texto.

Carrera 8-Bit

Indicación: Una animación de introducción de carreras de autos en estilo retro de 8 bits. Autos musculosos pixelados, cada uno con diseños y colores distintivos, se alinean en una línea de salida en un vasto paisaje desértico pixelado. El texto grande y pixelado "WANX RACING" parpadea sobre los autos en colores neón vibrantes, recordando los títulos de los juegos de arcade clásicos. La cámara recorre la escena, resaltando la estética retro y el texto. El fondo presenta un sencillo paisaje desértico pixelado con un atardecer en bloques que proyecta cálidos matices dorados sobre la escena. Todo el entorno está bañado en colores neón pixelados vibrantes, realzando la sensación nostálgica.

Feliz Navidad

Indicación: Escena de fiesta de Navidad realista y hermosamente decorada, árboles de Navidad adornados con luces de colores y regalos, llamas danzando en la chimenea, personas de jengibre usando sombreros navideños bailando alrededor del árbol, y mesas llenas de pavo asado y otras delicias. Efectos de texto exquisitos aparecen en la pantalla: "¡Feliz Navidad!" La pantalla es exquisita, sofisticada y concisa.

Carrera Loca

Indicación: Secuencia de títulos de acción de una película ficticia en estilo retro de los años 70. El texto estilizado y dibujado a mano "WANX" aparece dinámicamente en la pantalla, superpuesto a clips de ritmo rápido de persecuciones de autos, explosiones y acrobacias audaces. El texto es audaz, crudo y ligeramente distorsionado, reflejando la estética de las películas de acción de los años 70. Un montaje de escenas de alta intensidad con un efecto de grano de película retro, con colores vintage cálidos. Las secuencias están bañadas en una luz de hora dorada, realzando la sensación nostálgica.

Efectos de Sonido y Música

Genera efectos de sonido y música de fondo que se alinean perfectamente con el contenido visual y el ritmo.

Hurones Entrando al Agua

Indicación: La cámara se mueve rápidamente de lejos a cerca, con una vista baja, parada sobre un tronco. En la vista distante, un hurón blanco aparece repentinamente, jugando con el tronco y saltando al agua, luego nadando fuera del agua y sacando la cabeza. En este momento, la cámara hace un zoom para mostrar un primer plano del hurón blanco. Varios árboles de bayas junto a él están salpicados de agua, musgo y nieve cubren el suelo, y la superficie del agua está cubierta de hojas verdes caídas. El fondo es de abedul blanco.

Concierto de Wan AI

Indicación: Un grupo de personas interpreta una sinfonía en el Salón de Viena.

Hielo Cayendo

Indicación: Un grupo de personas interpreta una sinfonía en el Salón de Viena.

Características del Producto

A través de nuestro producto, puede aprovechar nuestros modelos de manera fluida con una experiencia de usuario amigable para acceder a contenido de video inspirador.

Wan AI Código Abierto

En este repositorio, publicamos el código y los pesos para Wan2.1, una suite completa y abierta de modelos de fundamentos de video diseñados para ampliar los límites de la generación de videos.

Wan2.1-I2V-14B

El modelo I2V-14B supera a los modelos de código cerrado líderes, así como a todos los modelos de código abierto existentes, logrando un rendimiento SOTA. Es capaz de generar videos que demuestran escenas visuales complejas y patrones de movimiento basados en texto e imágenes de entrada, incluidos modelos de resolución 480P y 720P.

Wan2.1-T2V-14B

😊480-720P

El modelo T2V-14B establece un nuevo rendimiento SOTA entre modelos de código abierto y cerrado, mostrando su capacidad para generar visuales de alta calidad con una dinámica de movimiento sustancial. También es el único modelo de video capaz de producir texto tanto en chino como en inglés y admite la generación de videos en resoluciones 480P y 720P.

Wan2.1-T2V-1.3B

😊480P

El modelo T2V-1.3B admite la generación de videos en casi todas las GPUs de consumo, requiriendo solo 8.19 GB de BRAM para producir un video de 5 segundos en 480P, con un tiempo de salida de solo 4 minutos en una GPU RTX 4090. A través de procesos de preentrenamiento y destilación, supera a modelos de código abierto más grandes y logra un rendimiento incluso comparable a algunos modelos de código cerrado avanzados.

Wan2.1-FLF2V-14B-720P

Wan 2.1 First-Last-Frame-to-Video (FLF2V) es una tecnología de generación de video basada en IA que sintetiza fotogramas intermedios entre un fotograma inicial y final dados para producir videos fluidos. Utiliza un modelo de 14B parámetros, admite inferencia acelerada por múltiples GPU y ofrece puntos de control preentrenados con una demostración de Gradio para pruebas interactivas. Las aplicaciones incluyen inpainting de video, producción de animación y más.

Informe Técnico

Manténgase atento a la próxima publicación de nuestro informe técnico completo para obtener más detalles.

Basado en el paradigma del transformador de difusión mainstream, Wan 2.1 logra avances significativos en capacidades generativas a través de una serie de innovaciones, incluido nuestro novedoso autoencoder variacional espacio-temporal (VAE), estrategias de preentrenamiento escalables, construcción de datos a gran escala y métricas de evaluación automatizadas. Estas contribuciones mejoran colectivamente el rendimiento y la versatilidad del modelo.

¿Por qué elegir Wan AI?

Experimente el futuro de la generación de videos con IA con tecnología líder en la industria y capacidades inigualables.

Salida de ultra alta calidad

Genere videos de calidad cinematográfica con detalles realistas y simulación física precisa.

Control avanzado de movimiento

Manejo fluido de movimientos complejos, rotaciones y dinámica corporal natural.

Soporte de idiomas global

Cree videos con efectos de texto multilingües para audiencias mundiales.

Procesamiento ultrarrápido

Impulsado por VAE causal 3D de próxima generación para generación ilimitada de video 1080P.

Excelencia asequible

Producción de video profesional a una fracción de los costos tradicionales.

Preguntas Frecuentes

1

¿Qué es Wan 2.1 de Wan AI y cómo funciona?

Wan 2.1 de Wan AI es el modelo de generación de videos de última generación de Alibaba Cloud que transforma descripciones de texto en videos impresionantes de alta calidad. Utilizando tecnologías avanzadas como Autoencoders Variacionales (VAE) y Transformadores de Difusión (DiT), asegura visuales realistas, transiciones suaves y física precisa para una experiencia verdaderamente inmersiva.

2

¿Necesito experiencia técnica para usar Wan 2.1 de Wan AI?

Wan 2.1 de Wan AI está diseñado pensando en la simplicidad. Su interfaz intuitiva permite a cualquiera crear videos de calidad profesional sin esfuerzo, incluso sin habilidades técnicas avanzadas. Ya sea que seas un principiante o un profesional, encontrarás la plataforma fácil de navegar y usar.

3

¿Qué tipos de videos puedo crear con Wan 2.1 de Wan AI?

Wan 2.1 de Wan AI es versátil y capaz de generar una amplia gama de contenido de video. Desde escenas dinámicas como bailes y deportes hasta tutoriales educativos y restauración de videos históricos, te permite dar vida a tu visión creativa.

4

¿Cuánto tiempo lleva generar un video?

El tiempo de generación del video depende de la complejidad y la duración de tu proyecto. Para resultados más rápidos, la versión Pro ofrece velocidades de procesamiento aceleradas, ideal para tareas sensibles al tiempo.

5

¿Puedo personalizar la salida del video?

¡Absolutamente! Wan 2.1 de Wan AI ofrece amplias opciones de personalización, permitiéndote ajustar la resolución, la tasa de fotogramas, la complejidad del movimiento y más. Adapta tus videos para satisfacer tus necesidades y preferencias específicas.

6

¿Qué formatos de entrada admite Wan 2.1 de Wan AI para la generación de videos?

Wan 2.1 de Wan AI admite principalmente descripciones de texto como entrada para la generación de videos. Puedes proporcionar indicaciones de texto detalladas que describan la escena, las acciones y los efectos visuales deseados. Además, puede admitir entradas de imágenes para un contexto mejorado en actualizaciones futuras.

7

¿Puede Wan 2.1 de Wan AI generar videos en múltiples idiomas?

Sí, Wan 2.1 de Wan AI admite entradas de texto multilingües, permitiéndote generar videos basados en descripciones en varios idiomas. Sin embargo, la calidad de la salida puede variar dependiendo del idioma y la complejidad de la descripción.

8

¿Hay un límite para la duración de los videos que puede generar Wan 2.1 de Wan AI?

La duración de los videos generados depende del plan de suscripción. La versión gratuita puede tener limitaciones en la duración del video, mientras que la versión Pro admite la generación de videos más largos y complejos. Los límites específicos se pueden encontrar en la documentación de la plataforma.

9

¿Cómo asegura Wan 2.1 de Wan AI la calidad de los videos generados?

Wan 2.1 de Wan AI utiliza tecnologías avanzadas como Autoencoders Variacionales (VAE) y Transformadores de Difusión (DiT) para asegurar salidas de alta calidad. Estas tecnologías permiten visuales realistas, transiciones suaves y simulaciones precisas de física.

10

¿Cómo maneja Wan 2.1 de Wan AI escenas complejas con múltiples personajes?

Wan 2.1 de Wan AI está diseñado para manejar escenas complejas con múltiples personajes analizando las relaciones e interacciones descritas en la entrada de texto. Utiliza algoritmos avanzados para asegurar un posicionamiento, movimientos e interacciones realistas entre los personajes.