Wan 2.1 & WanX 2.1 & Wan AI
Что такое Wan 2.1 от Wan AI?
Wan AI — это передовая и мощная модель генерации визуального контента, разработанная лабораторией Tongyi Lab . Она может генерировать видео на основе текста, изображений и других управляющих сигналов. Модели серии Wan 2.1 теперь полностью открыты.Исследуйте примеры
Обзор Wan AI
Производительность SOTA
Wan 2.1 постоянно превосходит существующие модели с открытым исходным кодом и коммерческие решения по различным метрикам.
Поддержка потребительских GPU
Модель T2V-1.3B требует всего 8,19 ГБ VRAM, что делает её совместимой практически со всеми потребительскими GPU. Она может генерировать 5-секундное видео в разрешении 480P на RTX 4090 примерно за 4 минуты (без техник оптимизации, таких как квантование). Её производительность сопоставима даже с некоторыми закрытыми моделями.
Множество задач
Wan 2.1 преуспевает в генерации видео по тексту, изображениям, редактировании видео, генерации изображений по тексту и видео по аудио, продвигая область генерации видео.
Генерация визуального текста
Wan 2.1 — это первая видеомодель, способная генерировать текст на китайском и английском языках, что улучшает её практическую применимость благодаря мощной генерации текста.
Мощный видео VAE от Wan AI
Wan-VAE обеспечивает исключительную эффективность и производительность, кодируя и декодируя видео в разрешении 1080P любой длины, сохраняя при этом временную информацию, что делает его идеальной основой для генерации видео и изображений.
Особенности Wan AI
Сложные движения
Преуспевает в создании реалистичных видео с обширными движениями тела, сложными вращениями, динамическими сменами сцен и плавными движениями камеры.
Физическая симуляция
Генерирует видео, точно имитирующие реальную физику и реалистичные взаимодействия объектов.
Кинематографическое качество
Предлагает кинематографические визуальные эффекты с богатыми текстурами и разнообразными стилизованными эффектами.
Управляемое редактирование от Wan AI
Включает универсальную модель редактирования для точных правок с использованием изображений или видео в качестве справочных материалов.
Генерация визуального текста от Wan AI
Создает текст и динамические текстовые эффекты в видео непосредственно из текстовых подсказок.
8-битные гонки
Подсказка: Ретро-анимация вступления к гонке на машинах в стиле 8-бит. Пиксельные маслкары с различными цветами и дизайнами выстраиваются на стартовой линии в обширной пиксельной пустыне. Огромный пиксельный текст "WANX RACING" вспыхивает над машинами яркими неоновыми цветами, напоминая названия классических аркадных игр. Камера скользит по сцене, подчеркивая ретро-эстетику и текст. Фон представляет собой простую пиксельную пустыню с закатом, отбрасывающим теплые золотистые тени на сцену. Вся сцена окутана яркими пиксельными неоновыми цветами, усиливающими ностальгическое чувство.
С Рождеством
Подсказка: Реалистичная, красиво украшенная рождественская вечеринка. Елки, украшенные разноцветными огнями и подарками, огонь, играющий в камине, имбирные пряники в шляпах Санты, танцующие вокруг елки, и столы, уставленные жареной индейкой и другими деликатесами. На экране появляется изысканный текстовый эффект: "С Рождеством!". Экран изысканный, лаконичный и сдержанный.
Безумные гонки
Подсказка: Заставка ретро-боевика 70-х годов. На экране динамично появляется нарисованный от руки стилизованный текст "WANX", наложенный на быстрые кадры автомобильных погонь, взрывов и отчаянных трюков. Текст грубый, резкий и слегка искаженный, отражающий эстетику боевиков 70-х годов. Монтаж из высокодинамичных сцен с эффектом старой кинопленки, с теплыми винтажными цветами. Сцены окутаны золотым светом заката, усиливающим ностальгическое чувство.
Звуковые эффекты и музыка
Генерирует звуковые эффекты и фоновую музыку, идеально сочетающиеся с визуальным контентом и ритмом.
Фретки заходят в воду
Подсказка: Камера быстро движется от дальнего плана к крупному, с низкого угла, стоя на бревне. Вдали внезапно появляется белый хорек, играющий с бревном и прыгающий в воду, затем выплывающий и высовывающий голову. В этот момент камера приближается, показывая крупным планом белого хорька. Несколько кустов ягод рядом с ним обрызганы водой, мох и снег покрывают землю, а поверхность воды усеяна зелеными опавшими листьями. На заднем плане белые березы.
Концерт Wan AI
Подсказка: Группа людей исполняет симфонию в Венском зале.
Падение льда
Подсказка: Группа людей исполняет симфонию в Венском зале.
Особенности продукта
С помощью нашего продукта вы можете легко использовать наши модели с удобным пользовательским интерфейсом для доступа к вдохновляющему видеоконтенту.
Wan AI с открытым исходным кодом
В этом репозитории мы публикуем код и веса для Wan2.1, комплексного и открытого набора базовых видеомоделей, разработанных для расширения границ генерации видео.
Модель I2V-14B превосходит ведущие закрытые модели, а также все существующие модели с открытым исходным кодом, достигая производительности SOTA. Она способна генерировать видео, демонстрирующие сложные визуальные сцены и паттерны движения на основе текстовых и визуальных входных данных, включая модели в разрешении 480P и 720P.
Wan2.1-T2V-14B
😊480-720PМодель T2V-14B устанавливает новый стандарт производительности среди моделей с открытым и закрытым исходным кодом, демонстрируя способность генерировать высококачественные визуальные эффекты с существенной динамикой движения. Это также единственная видеомодель, способная генерировать текст на китайском и английском языках, и поддерживает генерацию видео в разрешении 480P и 720P.
Wan2.1-T2V-1.3B
😊480PМодель T2V-1.3B поддерживает генерацию видео на большинстве потребительских GPU, требуя всего 8,19 ГБ BRAM для создания 5-секундного видео в разрешении 480P, с временем вывода всего 4 минуты на GPU RTX 4090. Благодаря процессам предварительного обучения и дистилляции, она превосходит более крупные модели с открытым исходным кодом и достигает производительности, сопоставимой с некоторыми продвинутыми закрытыми моделями.
Wan2.1-FLF2V-14B-720P
Wan 2.1 First-Last-Frame-to-Video (FLF2V) - это технология генерации видео на основе ИИ, которая синтезирует промежуточные кадры между заданными начальным и конечным кадрами для создания плавных видео. Она использует модель с 14B параметров, поддерживает ускоренный вывод на нескольких GPU и предлагает предварительно обученные контрольные точки с демонстрацией Gradio для интерактивного тестирования. Применения включают восстановление видео, создание анимации и многое другое.
Технический Отчет
Ожидайте скорого выхода нашего подробного технического отчета для получения дополнительной информации.
Опираясь на основной парадигм трансформации диффузии, Wan 2.1 достигает значительных улучшений в генеративных способностях благодаря ряду инноваций, включая наш новый пространственно-временной вариационный автокодировщик (VAE), масштабируемые стратегии предварительного обучения, создание данных в больших масштабах и автоматические метрики оценки. Эти улучшения коллективно повышают производительность и универсальность модели.
Почему Wan AI?
Испытайте будущее генерации видео с помощью ИИ благодаря передовым технологиям и непревзойденным возможностям.
Ультравысокое Качество
Создавайте видео кинематографического качества с реалистичными деталями и точной физической симуляцией.
Продвинутое Управление Движением
Плавная обработка сложных движений, вращений и естественной динамики тела.
Глобальная Языковая Поддержка
Создавайте видео с многоязычными текстовыми эффектами для мировой аудитории.
Молниеносная Обработка
Работает на причинном VAE 3D нового поколения для неограниченной генерации видео 1080P.
Доступное Совершенство
Профессиональное производство видео за малую часть традиционных затрат.
Часто задаваемые вопросы
Что такое Wan 2.1 от Wan AI и как он работает?
Wan 2.1 от Wan AI — это передовая модель генерации видео от Alibaba Cloud, которая преобразует текстовые описания в потрясающие видео высокого качества. Используя передовые технологии, такие как вариационные автокодировщики (VAE) и трансформаторы диффузии (DiT), она обеспечивает реалистичные визуальные эффекты, плавные переходы и точную физику для по-настоящему погружающего опыта.
Нужна ли мне техническая экспертиза для использования Wan 2.1 от Wan AI?
Wan 2.1 от Wan AI разработан с учетом простоты. Его интуитивно понятный интерфейс позволяет любому создавать профессиональные видео без необходимости в продвинутых технических навыках. Будь вы новичок или профессионал, вы найдете платформу легкой в навигации и использовании.
Какие виды видео я могу создавать с помощью Wan 2.1 от Wan AI?
Wan 2.1 от Wan AI — это универсальный инструмент, способный генерировать широкий спектр видеоконтента. От динамичных сцен, таких как танцы и спорт, до образовательных уроков и восстановления исторических видео, он дает вам возможность воплотить в жизнь ваше творческое видение.
Сколько времени занимает генерация видео?
Время генерации видео зависит от сложности и длины вашего проекта. Для более быстрых результатов версия Pro предлагает ускоренные скорости обработки, идеально подходящие для задач, чувствительных к времени.
Могу ли я настроить выходное видео?
Конечно! Wan 2.1 от Wan AI предлагает обширные возможности настройки, позволяя вам регулировать разрешение, частоту кадров, сложность движений и многое другое. Настройте свои видео в соответствии с вашими конкретными потребностями и предпочтениями.
Какие форматы ввода поддерживает Wan 2.1 от Wan AI для генерации видео?
Wan 2.1 от Wan AI в основном поддерживает текстовые описания в качестве входных данных для генерации видео. Вы можете предоставить детализированные текстовые подсказки, описывающие сцены, действия и желаемые визуальные эффекты. В будущих обновлениях также может быть добавлена поддержка входных данных в виде изображений для улучшенного контекста.
Может ли Wan 2.1 от Wan AI генерировать видео на нескольких языках?
Да, Wan 2.1 от Wan AI поддерживает многоязычные текстовые входные данные, позволяя генерировать видео на основе описаний на различных языках. Однако качество выходных данных может варьироваться в зависимости от языка и сложности описания.
Есть ли ограничение на длину видео, которое может генерировать Wan 2.1 от Wan AI?
Длина генерируемых видео зависит от вашего подписного плана. В бесплатной версии могут быть ограничения по длительности видео, тогда как версия Pro поддерживает более длинные и сложные видео. Подробности смотрите в документации платформы.
Как Wan 2.1 от Wan AI обеспечивает качество генерируемых видео?
Wan 2.1 от Wan AI использует передовые технологии, такие как вариационные автокодировщики (VAE) и трансформаторы диффузии (DiT), чтобы гарантировать высокое качество выходных данных. Эти технологии обеспечивают реалистичные визуальные эффекты, плавные переходы и точную симуляцию физики.
Как Wan 2.1 от Wan AI обрабатывает сложные сцены с несколькими персонажами?
Wan 2.1 от Wan AI обрабатывает сложные сцены с несколькими персонажами, анализируя отношения и взаимодействия, описанные во входном тексте. Он использует продвинутые алгоритмы для обеспечения реалистичного расположения, движений и взаимодействий между персонажами.