Wan 2.1 & WanX 2.1 & Wan AI
Wan AI의 Wan 2.1이란 무엇인가요?
Wan AI는 알리바바 그룹의 통이 연구소에서 개발한 고급 강력한 시각 생성 모델입니다. 텍스트, 이미지 및 기타 제어 신호를 기반으로 비디오를 생성할 수 있습니다. Wan 2.1 시리즈 모델은 현재 완전히 오픈 소스입니다.예시 탐색
Wan AI 개요
최고의 성능
Wan 2.1은 여러 벤치마크에서 일관되게 기존의 오픈 소스 모델과 최신 상업용 솔루션을 능가합니다.
소비자용 GPU 지원
T2V-1.3B 모델은 8.19GB의 VRAM만으로 작동하며, 거의 모든 소비자용 GPU와 호환됩니다. RTX 4090에서 최적화 기술 없이 약 4분 만에 480P 5초 비디오를 생성할 수 있습니다. 성능은 일부 폐쇄형 모델과도 경쟁할 수 있습니다.
다양한 작업
Wan 2.1은 텍스트에서 비디오, 이미지에서 비디오, 비디오 편집, 텍스트에서 이미지, 비디오에서 오디오 생성에서 뛰어난 성능을 발휘하여 비디오 생성 분야를 발전시킵니다.
시각적 텍스트 생성
Wan 2.1은 중국어와 영어 텍스트를 생성할 수 있는 최초의 비디오 모델로, 강력한 텍스트 생성 기능을 갖추고 있어 실용성을 높입니다.
Wan AI의 강력한 비디오 VAE
Wan-VAE는 1080P 비디오의 인코딩 및 디코딩에서 뛰어난 성능을 발휘하며 시간 정보를 보존합니다. 비디오 및 이미지 생성의 이상적인 기반입니다.
Wan AI의 특징
복잡한 동작
광범위한 신체 움직임, 복잡한 회전, 역동적인 장면 전환 및 부드러운 카메라 움직임을 포함한 사실적인 비디오 생성에 뛰어납니다.
물리 시뮬레이션
생성된 비디오는 실제 물리 효과와 사실적인 물체 상호작용을 정확하게 시뮬레이션합니다.
시네마틱 품질
풍부한 텍스처와 다양한 스타일리시한 효과를 갖춘 영화 같은 시각 효과를 제공합니다.
제어 가능한 편집
이미지 또는 비디오를 참조하여 정확한 편집을 수행하는 범용 편집 모델을 갖추고 있습니다.
시각적 텍스트 생성
텍스트 프롬프트에서 비디오 내에서 텍스트와 동적 텍스트 효과를 직접 생성합니다.
8비트 레이싱
프롬프트: 레트로 8비트 스타일의 자동차 경주 인트로 애니메이션. 광활한 픽셀 사막 경주로의 시작 라인에 각기 다른 색상과 디자인의 픽셀 근육 자동차가 줄지어 서 있습니다. 자동차 위에는 고전 아케이드 게임 제목을 연상시키는 큰 픽셀 텍스트 'WANX RACING'이 형광 색상으로 깜빡이고 있습니다. 카메라는 장면을 팬하여 레트로 미학과 텍스트를 강조합니다. 배경은 단순한 픽셀 사막 풍경으로, 블록 형태의 일몰이 따뜻한 금색 빛을 비추고 있습니다. 전체 환경은 화려한 픽셀 네온 색상으로 덮여 있어 추억을 자극합니다.
메리 크리스마스
프롬프트: 리얼리스트, 아름답게 장식된 크리스마스 파티 장면, 크리스마스 트리에 다양한 색상의 조명과 선물이 장식되어 있고, 벽난로에서 불꽃이 춤추고 있으며, 진저브레드 사람들이 크리스마스 모자를 쓰고 트리 주위에서 춤을 추고 있으며, 테이블에는 구운 칠면조와 기타 맛있는 요리가 가득합니다. 화면에 정교한 텍스트 효과가 나타납니다: '메리 크리스마스!' 화면은 정교하고 간결하며 우아합니다.
매드 레이싱
프롬프트: 가상의 70년대 스타일 액션 영화의 오프닝 시퀀스. 손으로 그린 스타일리시한 텍스트 'WANX'가 화면에 역동적으로 나타납니다. 고속 추격 장면, 폭발, 대담한 스턴트 클립 위에 겹쳐 있습니다. 텍스트는 대담하고 약간 왜곡되어 있으며 70년대 액션 영화의 미학을 반영합니다. 몽타주 장면에는 레트로 필름 그레인 효과가 있으며 따뜻한 빈티지 색조로 표시됩니다. 장면 전체가 황혼의 빛에 잠겨 있어 추억을 자극합니다.
사운드 효과 및 음악
시각 콘텐츠와 리듬에 완벽하게 일치하는 사운드 효과와 배경 음악을 생성합니다.
페럿이 물에 들어가는 장면
프롬프트: 카메라는 빠르게 멀리서 가까이로 이동하며 낮은 각도에서 통나무 위에 서 있습니다. 멀리서 갑자기 흰 페럿이 나타나 통나무와 놀다가 물에 뛰어들고 물 밖으로 나와 머리를 내밀었습니다. 이 순간 카메라는 흰 페럿을 클로즈업하여 촬영합니다. 몇몇 베리 나무 근처에 물이 튀고, 땅은 이끼와 눈으로 덮여 있으며, 물 표면에는 녹색 낙엽이 떠다니고 있습니다. 배경은 자작나무입니다.
Wan AI의 콘서트
프롬프트: 한 무리의 사람들이 빈 홀에서 교향곡을 연주하고 있습니다.
얼음이 떨어지는 장면
프롬프트: 한 무리의 사람들이 빈 홀에서 교향곡을 연주하고 있습니다.
제품 특징
우리의 제품을 통해 모델을 원활하게 활용하고 사용자 친화적인 경험을 제공하며 영감을 주는 비디오 콘텐츠에 접근할 수 있습니다.
Wan AI 오픈 소스
이 저장소에서 Wan2.1의 코드와 가중치를 공개합니다. 이는 비디오 생성의 한계를 밀어붙이기 위한 포괄적이고 오픈 소스인 비디오 기반 모델 스위트입니다.
I2V-14B 모델은 기존의 오픈 소스 모델과 폐쇄형 모델을 모두 능가하며 SOTA 성능을 달성합니다. 텍스트와 이미지 입력을 기반으로 복잡한 시각적 장면과 움직임 패턴을 포함한 비디오를 생성할 수 있습니다. 480P와 720P 해상도의 모델이 있습니다.
Wan2.1-T2V-14B
😊480-720PT2V-14B 모델은 오픈 소스와 폐쇄형 모델 모두에서 새로운 SOTA 성능을 달성하며, 고품질 시각 효과와 상당한 움직임 역학을 생성하는 능력을 보여줍니다. 중국어와 영어 텍스트를 생성할 수 있는 유일한 비디오 모델로, 480P와 720P 해상도의 비디오 생성을 지원합니다.
Wan2.1-T2V-1.3B
😊480PT2V-1.3B 모델은 거의 모든 소비자용 GPU에서 비디오 생성을 지원하며, 480P 비디오를 생성하는 데 8.19GB의 BRAM만 필요합니다. RTX 4090 GPU에서의 출력 시간은 4분입니다. 사전 훈련 및 증류 과정을 통해 더 큰 오픈 소스 모델을 능가하며, 일부 선진 폐쇄형 모델과도 경쟁할 수 있는 성능을 발휘합니다.
Wan2.1-FLF2V-14B-720P
Wan 2.1 First-Last-Frame-to-Video (FLF2V)는 주어진 시작 프레임과 끝 프레임 사이의 중간 프레임을 합성하여 부드러운 비디오를 생성하는 AI 기반 비디오 생성 기술입니다. 14B 파라미터 모델을 활용하고, 멀티 GPU 가속 추론을 지원하며, 대화형 테스트를 위한 Gradio 데모와 함께 사전 학습된 체크포인트를 제공합니다. 비디오 인페인팅, 애니메이션 제작 등에 활용됩니다.
기술 보고서
자세한 기술 보고서를 기대해 주세요.
주류 확산 트랜스포머 패러다임을 기반으로 Wan 2.1은 일련의 혁신을 통해 생성 능력을 크게 향상시켰습니다. 새로운 시공간 변분 오토인코더(VAE), 확장 가능한 사전 훈련 전략, 대규모 데이터 구축, 자동화된 평가 지표 등의 기여로 모델의 성능과 다양성이 향상되었습니다.
Wan AI를 선택하는 이유
업계 최고의 기술과 비교할 수 없는 기능으로 AI 비디오 생성의 미래를 경험하세요.
초고화질 출력
생생한 디테일과 정확한 물리 시뮬레이션으로 영화급 품질의 비디오를 생성합니다.
고급 모션 제어
복잡한 움직임, 회전 및 자연스러운 신체 역학을 원활하게 처리합니다.
글로벌 언어 지원
전 세계 시청자를 위한 다국어 텍스트 효과로 비디오를 제작합니다.
초고속 처리
차세대 3D 인과 VAE로 구동되어 무제한 1080P 비디오 생성이 가능합니다.
합리적인 가격의 우수성
전통적인 비용의 일부로 전문가급 비디오 제작을 실현합니다.
자주 묻는 질문
Wan 2.1 by Wan AI란 무엇이며 어떻게 작동하나요?
Wan 2.1 by Wan AI는 알리바바 클라우드의 최신 비디오 생성 모델로, 텍스트 설명을 기반으로 놀라운 고품질 비디오를 생성합니다. 변분 오토인코더(VAE)와 확산 트랜스포머(DiT)와 같은 선진 기술을 사용하여 사실적인 시각 효과, 부드러운 전환 및 정확한 물리 효과를 보장하며 진정한 몰입감을 제공합니다.
Wan 2.1 by Wan AI를 사용하려면 기술적인 지식이 필요한가요?
Wan 2.1 by Wan AI는 간단한 설계로 누구나 쉽게 전문가 수준의 비디오를 만들 수 있습니다. 직관적인 인터페이스를 통해 초보자도 쉽게 탐색하고 사용할 수 있습니다.
Wan 2.1 by Wan AI로 어떤 종류의 비디오를 만들 수 있나요?
Wan 2.1 by Wan AI는 다재다능하여 역동적인 장면부터 댄스, 스포츠에 이르기까지, 교육 튜토리얼 및 역사적인 비디오 복원까지 다양한 비디오 콘텐츠를 생성할 수 있습니다.
비디오 생성에는 얼마나 걸리나요?
비디오 생성 시간은 프로젝트의 복잡성과 길이에 따라 다릅니다. 더 빠른 결과를 원한다면 프로 버전을 사용하여 처리 속도를 가속화할 수 있으며, 시간에 민감한 작업에 적합합니다.
비디오 출력을 맞춤화할 수 있나요?
물론입니다! Wan 2.1 by Wan AI는 해상도, 프레임 속도, 움직임 복잡성 등 다양한 맞춤화 옵션을 제공합니다. 귀하의 구체적인 요구 사항과 선호도에 맞게 비디오를 맞춤화하세요.
Wan 2.1 by Wan AI는 비디오 생성을 위해 어떤 입력 형식을 지원하나요?
Wan 2.1 by Wan AI는 주로 텍스트 설명을 비디오 생성의 입력으로 지원합니다. 장면, 동작 및 원하는 시각 효과를 자세히 설명하는 텍스트 프롬프트를 제공할 수 있습니다. 또한 향후 업데이트에서는 컨텍스트를 강화하기 위해 이미지 입력도 지원할 예정입니다.
Wan 2.1 by Wan AI는 여러 언어로 비디오를 생성할 수 있나요?
예, Wan 2.1 by Wan AI는 여러 언어의 텍스트 입력을 지원하여 다양한 언어의 설명을 기반으로 비디오를 생성할 수 있습니다. 다만, 출력 품질은 언어와 설명의 복잡성에 따라 다를 수 있습니다.
Wan 2.1 by Wan AI로 생성할 수 있는 비디오의 길이에 제한이 있나요?
비디오의 길이는 구독 계획에 따라 다릅니다. 무료 버전에는 비디오 길이에 제한이 있을 수 있지만, 프로 버전에서는 더 긴 복잡한 비디오 생성을 지원합니다. 구체적인 제한은 플랫폼의 문서를 참조하세요.
Wan 2.1 by Wan AI는 생성된 비디오의 품질을 어떻게 보장하나요?
Wan 2.1 by Wan AI는 변분 오토인코더(VAE)와 확산 트랜스포머(DiT)와 같은 선진 기술을 사용하여 높은 품질의 출력을 보장합니다. 이러한 기술은 시각 효과를 사실적으로 만들고, 전환을 부드럽게 하며, 물리 시뮬레이션을 정확하게 합니다.
Wan 2.1 by Wan AI는 여러 캐릭터가 포함된 복잡한 장면을 어떻게 처리하나요?
Wan 2.1 by Wan AI는 텍스트 입력에서 설명된 캐릭터의 관계와 상호작용을 분석하여 여러 캐릭터가 포함된 복잡한 장면을 처리합니다. 선진 알고리즘을 사용하여 캐릭터의 배치, 움직임 및 상호작용이 사실적이도록 합니다.