Wan 2.1 & WanX 2.1 & Wan AI
¿Qué es Wan 2.1 de Wan AI?
Wan AI es un modelo de generación visual avanzado y potente desarrollado por Tongyi Lab. Puede generar videos basados en texto, imágenes y otras señales de control. Los modelos de la serie Wan 2.1 ahora son completamente de código abierto.Explora ejemplos
Descripción General de Wan AI
Rendimiento SOTA
Wan 2.1 supera consistentemente a los modelos de código abierto existentes y a las soluciones comerciales de última generación en múltiples benchmarks.
Compatible con GPUs de Consumo
El modelo T2V-1.3B requiere solo 8.19 GB de VRAM, lo que lo hace compatible con casi todas las GPUs de consumo. Puede generar un video de 5 segundos en 480P en una RTX 4090 en aproximadamente 4 minutos (sin técnicas de optimización como la cuantización). Su rendimiento es incluso comparable a algunos modelos de código cerrado.
Múltiples Tareas
Wan 2.1 sobresale en Texto a Video, Imagen a Video, Edición de Videos, Texto a Imagen y Video a Audio, avanzando en el campo de la generación de videos.
Generación de Texto Visual
Wan 2.1 es el primer modelo de video capaz de generar texto tanto en chino como en inglés, con una generación de texto robusta que mejora sus aplicaciones prácticas.
Potente VAE de Video de Wan AI
Wan-VAE ofrece una eficiencia y rendimiento excepcionales, codificando y decodificando videos de 1080P de cualquier longitud mientras preserva la información temporal, lo que lo convierte en una base ideal para la generación de videos e imágenes.
Características de Wan AI
Movimientos Complejos
Excelente en la generación de videos realistas con movimientos corporales extensos, rotaciones complejas, transiciones de escenas dinámicas y movimientos fluidos de la cámara.
Simulación Física
Genera videos que simulan con precisión la física del mundo real y las interacciones realistas de los objetos.
Calidad Cinematográfica
Ofrece visuales de calidad cinematográfica con texturas ricas y una variedad de efectos estilizados.
Edición Controlable por Wan AI
Cuenta con un modelo de edición universal para ediciones precisas utilizando referencias de imágenes o videos.
Generación de Texto Visual por Wan AI
Crea texto y efectos de texto dinámicos en videos directamente a partir de indicaciones de texto.
Carrera 8-Bit
Indicación: Una animación de introducción de carreras de autos en estilo retro de 8 bits. Autos musculosos pixelados, cada uno con diseños y colores distintivos, se alinean en una línea de salida en un vasto paisaje desértico pixelado. El texto grande y pixelado "WANX RACING" parpadea sobre los autos en colores neón vibrantes, recordando los títulos de los juegos de arcade clásicos. La cámara recorre la escena, resaltando la estética retro y el texto. El fondo presenta un sencillo paisaje desértico pixelado con un atardecer en bloques que proyecta cálidos matices dorados sobre la escena. Todo el entorno está bañado en colores neón pixelados vibrantes, realzando la sensación nostálgica.
Feliz Navidad
Indicación: Escena de fiesta de Navidad realista y hermosamente decorada, árboles de Navidad adornados con luces de colores y regalos, llamas danzando en la chimenea, personas de jengibre usando sombreros navideños bailando alrededor del árbol, y mesas llenas de pavo asado y otras delicias. Efectos de texto exquisitos aparecen en la pantalla: "¡Feliz Navidad!" La pantalla es exquisita, sofisticada y concisa.
Carrera Loca
Indicación: Secuencia de títulos de acción de una película ficticia en estilo retro de los años 70. El texto estilizado y dibujado a mano "WANX" aparece dinámicamente en la pantalla, superpuesto a clips de ritmo rápido de persecuciones de autos, explosiones y acrobacias audaces. El texto es audaz, crudo y ligeramente distorsionado, reflejando la estética de las películas de acción de los años 70. Un montaje de escenas de alta intensidad con un efecto de grano de película retro, con colores vintage cálidos. Las secuencias están bañadas en una luz de hora dorada, realzando la sensación nostálgica.
Efectos de Sonido y Música
Genera efectos de sonido y música de fondo que se alinean perfectamente con el contenido visual y el ritmo.
Hurones Entrando al Agua
Indicación: La cámara se mueve rápidamente de lejos a cerca, con una vista baja, parada sobre un tronco. En la vista distante, un hurón blanco aparece repentinamente, jugando con el tronco y saltando al agua, luego nadando fuera del agua y sacando la cabeza. En este momento, la cámara hace un zoom para mostrar un primer plano del hurón blanco. Varios árboles de bayas junto a él están salpicados de agua, musgo y nieve cubren el suelo, y la superficie del agua está cubierta de hojas verdes caídas. El fondo es de abedul blanco.
Concierto de Wan AI
Indicación: Un grupo de personas interpreta una sinfonía en el Salón de Viena.
Hielo Cayendo
Indicación: Un grupo de personas interpreta una sinfonía en el Salón de Viena.
Características del Producto
A través de nuestro producto, puede aprovechar nuestros modelos de manera fluida con una experiencia de usuario amigable para acceder a contenido de video inspirador.
Wan AI Código Abierto
En este repositorio, publicamos el código y los pesos para Wan2.1, una suite completa y abierta de modelos de fundamentos de video diseñados para ampliar los límites de la generación de videos.
El modelo I2V-14B supera a los modelos de código cerrado líderes, así como a todos los modelos de código abierto existentes, logrando un rendimiento SOTA. Es capaz de generar videos que demuestran escenas visuales complejas y patrones de movimiento basados en texto e imágenes de entrada, incluidos modelos de resolución 480P y 720P.
Wan2.1-T2V-14B
😊480-720PEl modelo T2V-14B establece un nuevo rendimiento SOTA entre modelos de código abierto y cerrado, mostrando su capacidad para generar visuales de alta calidad con una dinámica de movimiento sustancial. También es el único modelo de video capaz de producir texto tanto en chino como en inglés y admite la generación de videos en resoluciones 480P y 720P.
Wan2.1-T2V-1.3B
😊480PEl modelo T2V-1.3B admite la generación de videos en casi todas las GPUs de consumo, requiriendo solo 8.19 GB de BRAM para producir un video de 5 segundos en 480P, con un tiempo de salida de solo 4 minutos en una GPU RTX 4090. A través de procesos de preentrenamiento y destilación, supera a modelos de código abierto más grandes y logra un rendimiento incluso comparable a algunos modelos de código cerrado avanzados.
Wan2.1-FLF2V-14B-720P
Wan 2.1 First-Last-Frame-to-Video (FLF2V) es una tecnología de generación de video basada en IA que sintetiza fotogramas intermedios entre un fotograma inicial y final dados para producir videos fluidos. Utiliza un modelo de 14B parámetros, admite inferencia acelerada por múltiples GPU y ofrece puntos de control preentrenados con una demostración de Gradio para pruebas interactivas. Las aplicaciones incluyen inpainting de video, producción de animación y más.
Informe Técnico
Manténgase atento a la próxima publicación de nuestro informe técnico completo para obtener más detalles.
Basado en el paradigma del transformador de difusión mainstream, Wan 2.1 logra avances significativos en capacidades generativas a través de una serie de innovaciones, incluido nuestro novedoso autoencoder variacional espacio-temporal (VAE), estrategias de preentrenamiento escalables, construcción de datos a gran escala y métricas de evaluación automatizadas. Estas contribuciones mejoran colectivamente el rendimiento y la versatilidad del modelo.
¿Por qué elegir Wan AI?
Experimente el futuro de la generación de videos con IA con tecnología líder en la industria y capacidades inigualables.
Salida de ultra alta calidad
Genere videos de calidad cinematográfica con detalles realistas y simulación física precisa.
Control avanzado de movimiento
Manejo fluido de movimientos complejos, rotaciones y dinámica corporal natural.
Soporte de idiomas global
Cree videos con efectos de texto multilingües para audiencias mundiales.
Procesamiento ultrarrápido
Impulsado por VAE causal 3D de próxima generación para generación ilimitada de video 1080P.
Excelencia asequible
Producción de video profesional a una fracción de los costos tradicionales.
Preguntas Frecuentes
¿Qué es Wan 2.1 de Wan AI y cómo funciona?
Wan 2.1 de Wan AI es el modelo de generación de videos de última generación de Alibaba Cloud que transforma descripciones de texto en videos impresionantes de alta calidad. Utilizando tecnologías avanzadas como Autoencoders Variacionales (VAE) y Transformadores de Difusión (DiT), asegura visuales realistas, transiciones suaves y física precisa para una experiencia verdaderamente inmersiva.
¿Necesito experiencia técnica para usar Wan 2.1 de Wan AI?
Wan 2.1 de Wan AI está diseñado pensando en la simplicidad. Su interfaz intuitiva permite a cualquiera crear videos de calidad profesional sin esfuerzo, incluso sin habilidades técnicas avanzadas. Ya sea que seas un principiante o un profesional, encontrarás la plataforma fácil de navegar y usar.
¿Qué tipos de videos puedo crear con Wan 2.1 de Wan AI?
Wan 2.1 de Wan AI es versátil y capaz de generar una amplia gama de contenido de video. Desde escenas dinámicas como bailes y deportes hasta tutoriales educativos y restauración de videos históricos, te permite dar vida a tu visión creativa.
¿Cuánto tiempo lleva generar un video?
El tiempo de generación del video depende de la complejidad y la duración de tu proyecto. Para resultados más rápidos, la versión Pro ofrece velocidades de procesamiento aceleradas, ideal para tareas sensibles al tiempo.
¿Puedo personalizar la salida del video?
¡Absolutamente! Wan 2.1 de Wan AI ofrece amplias opciones de personalización, permitiéndote ajustar la resolución, la tasa de fotogramas, la complejidad del movimiento y más. Adapta tus videos para satisfacer tus necesidades y preferencias específicas.
¿Qué formatos de entrada admite Wan 2.1 de Wan AI para la generación de videos?
Wan 2.1 de Wan AI admite principalmente descripciones de texto como entrada para la generación de videos. Puedes proporcionar indicaciones de texto detalladas que describan la escena, las acciones y los efectos visuales deseados. Además, puede admitir entradas de imágenes para un contexto mejorado en actualizaciones futuras.
¿Puede Wan 2.1 de Wan AI generar videos en múltiples idiomas?
Sí, Wan 2.1 de Wan AI admite entradas de texto multilingües, permitiéndote generar videos basados en descripciones en varios idiomas. Sin embargo, la calidad de la salida puede variar dependiendo del idioma y la complejidad de la descripción.
¿Hay un límite para la duración de los videos que puede generar Wan 2.1 de Wan AI?
La duración de los videos generados depende del plan de suscripción. La versión gratuita puede tener limitaciones en la duración del video, mientras que la versión Pro admite la generación de videos más largos y complejos. Los límites específicos se pueden encontrar en la documentación de la plataforma.
¿Cómo asegura Wan 2.1 de Wan AI la calidad de los videos generados?
Wan 2.1 de Wan AI utiliza tecnologías avanzadas como Autoencoders Variacionales (VAE) y Transformadores de Difusión (DiT) para asegurar salidas de alta calidad. Estas tecnologías permiten visuales realistas, transiciones suaves y simulaciones precisas de física.
¿Cómo maneja Wan 2.1 de Wan AI escenas complejas con múltiples personajes?
Wan 2.1 de Wan AI está diseñado para manejar escenas complejas con múltiples personajes analizando las relaciones e interacciones descritas en la entrada de texto. Utiliza algoritmos avanzados para asegurar un posicionamiento, movimientos e interacciones realistas entre los personajes.