Grok Imagine V1.5가 ZOOOP에 상륙: xAI의 이미지-투-비디오, 마침내 안정되다

Grok Imagine V1.5가 이제 ZOOOP에서 라이브입니다. xAI의 이미지-투-비디오에 대한 최신 접근법으로, 1.0 대비 진정한 이점은 단순합니다: 그림이 함께 유지되고, 모션이 더 자연스럽게 보입니다. 프리뷰에서는 공개 이미지-투-비디오 리더보드 1위까지 차지했습니다. 새로워진 점과 사용 시작 방법을 소개합니다.

Grok Imagine V1.5가 실제로 하는 일

먼저, 범위. Grok Imagine V1.5는 전용 이미지-투-비디오 모델입니다 — 정지 이미지를 시작점으로 전달하고, 모션을 설명하는 한 줄을 작성하면, 해당 프레임을 짧은 클립으로 애니메이션합니다. 정지 이미지를 생성하지 않고 텍스트-투-비디오도 하지 않습니다; "이 이미지를 움직여줘"라는 한 가지를 합니다. ZOOOP의 AI 비디오 생성에서 찾을 수 있습니다.

오리지널 Grok Imagine과 같은 라인에서 왔으므로 기반은 이어집니다. 이 버전이 진정으로 수정하는 것은 지난번에 가장 많이 불편하게 했던 거친 부분들입니다.

가장 큰 개선: 그림이 마침내 안정적으로 유지된다

오리지널 Grok Imagine은 안정성에서 가장 많은 비판을 받았습니다 — 얼굴이 이동하고, 피사체가 방황하며, 씬 요소가 프레임마다 변경되었습니다. 안정성이 바로 V1.5가 개선하는 것입니다: 전체 클립에 걸쳐 피사체, 얼굴, 씬이 뒤틀리거나 슬라이딩하는 대신 일관되게 유지됩니다.

이미지-투-비디오에서 이것은 원시적 예쁨보다 더 중요합니다. 모핑하는 클립은 각 프레임이 얼마나 선명하든 사용 불가능합니다; 처음부터 끝까지 일관되게 유지되는 것이 실제로 출시할 수 있는 것입니다. Grok Imagine V1.5가 여기서 이루는 도약은 직접 눈으로 쉽게 볼 수 있습니다.

더 나은 모션, 그리고 리더보드 승리

안정성 너머, 모션 품질도 더 좋아졌습니다 — 단일 정지 이미지가 움직이는 샷으로 얼마나 충실하게 전달되는지가 1.0보다 더 설득력 있게 처리되어, 그 "가짜" 룩이 줄었습니다.

공정하게 말하자면: Grok Imagine V1.5는 프리뷰 기간에 공개 Image-to-Video Arena에서 1위를 차지했습니다. 리더보드는 하나의 신호일 뿐이며 모델이 모든 곳에서 승리한다는 의미는 아닙니다 — 하지만 이 버전이 정지를 움직이는 샷으로 변환하는 최상위 티어에 있다는 것은 분명합니다.

사운드는 여전히 내장되어 있습니다

참고할 점: 오디오는 여기서 새로운 것이 아닙니다. 이전 세대부터 Grok Imagine은 그림과 함께 생성된 사운드가 포함된 비디오를 제공해왔습니다 — 대화, 주변 소음, 음향 효과, 말하는 캐릭터의 립싱크 포함. 최신 버전은 단순히 그것을 유지합니다.

실질적인 이익은 여전히 실재합니다. 사운드가 포함된 짧은 클립을 만드는 것은 예전에 세 번의 과정을 의미했습니다 — 그림을 생성하고, 별도의 도구로 음성을 추가한 뒤, 그 위에 효과를 처리. 여기서는 단일 프롬프트로 이미 사운드가 포함된 클립을 얻을 수 있어, 다른 도구의 출력을 정렬하는 시간과 번거로움을 절약합니다.

사양 한눈에 보기: 무엇을 할 수 있고 할 수 없는지

몇 가지 실질적인 숫자:

720p 또는 480p 출력
1~15초, 기본값 5초
이미지-투-비디오 전용 — 먼저 시작 이미지가 필요합니다

강점은 명확합니다: 앰비언스 사운드로 풍경이나 제품 샷을 애니메이션하고, 소셜을 위해 세로 클립을 만들거나, 페이싱을 확인하기 위해 컨셉 프레임에 생명을 불어넣으세요.

한계도 언급할 가치가 있습니다. Grok Imagine V1.5는 720p가 최대입니다 — 1080p/4K 마감 모델이 아닙니다; 다중 샷 컷이 아닌 단일 샷만 애니메이션합니다; 그리고 아무것도 없는 데서 이미지를 만들어내지 않습니다. 애니메이션할 프레임이 아직 없으면, 먼저 AI 이미지 생성으로 생성한 뒤 입력하세요. 더 높은 해상도나 다중 샷 편집에는 Kling V3, Seedance V2.0, Veo 3.1 같은 더 무거운 비디오 모델이 더 나은 선택입니다.

크리에이터에게 무엇을 의미하는지

계산을 해보면 이해가 됩니다. 사운드가 포함된 짧은 클립을 만드는 것은 예전에 영상을 생성하고, 더빙하고, 효과를 추가하는 사이를 번갈아 가는 것을 의미했습니다 — 그리고 더 나쁘게, 뒤틀린 한 프레임이 전체 테이크를 망칠 수 있었습니다. Grok Imagine V1.5는 그 과정을 단축하고 안정성을 강화하여, 사운드가 포함된 많은 짧은 클립을 밀어내는 모든 사람에게 실제 시간을 절약합니다.

모든 것을 하는 모델이 아닙니다. 그 강점은 "이 이미지를 움직여줘 — 안정적이고, 사운드와 함께": 토킹 헤드, 제품 모션, 소셜 클립, 빠른 미리보기. 고해상도 최종이나 복잡한 편집이 필요하면, 샷을 다른 모델에 전달하세요. 이런 역할 분담이 Grok Imagine V1.5가 그것이 구축된 영역에서 이렇게 유용한 이유 중 하나입니다.

ZOOOP에서 시작하는 방법

ZOOOP의 AI 비디오 생성에서 Grok Imagine V1.5를 선택하고, 시작 이미지를 업로드하세요(첫 번째 프레임이 됩니다), 모션을 설명하는 프롬프트를 작성하고, 해상도와 길이를 설정한 뒤 생성하세요.

ZOOOP의 모든 모델은 같은 크레딧을 공유하며, 크레딧은 만료되지 않습니다 — 그래서 낭비된 선택에 대해 걱정하지 않고 모델 간에 전환할 수 있습니다. 파라미터와 예시를 먼저 살펴보려면 Grok Imagine V1.5 모델 페이지를 참조하세요.