Grok Imagine V1.5 มาที่ ZOOOP แล้ว: image-to-video ของ xAI ในที่สุดก็ภาพนิ่งไม่เพี้ยน

ตอนนี้ใช้ Grok Imagine V1.5 บน ZOOOP ได้โดยตรงแล้ว นี่คือ image-to-video เวอร์ชันล่าสุดจาก xAI และเมื่อเทียบกับ 1.0 ข้อดีที่จับต้องได้ก็เรียบง่าย คือภาพอยู่ทรงเป็นชิ้นเดียว และการเคลื่อนไหวดูเป็นธรรมชาติขึ้น ช่วงพรีวิวมันยังขึ้นอันดับหนึ่งบนกระดานจัดอันดับ image-to-video สาธารณะด้วย ต่อไปนี้คือสิ่งที่ใหม่และวิธีเริ่มใช้

Grok Imagine V1.5 ทำอะไรกันแน่

ก่อนอื่นขอบเขต Grok Imagine V1.5 เป็นโมเดลเฉพาะทาง image-to-video คุณป้อนภาพนิ่งให้มันเป็นจุดเริ่ม เขียนประโยคหนึ่งบอกการเคลื่อนไหว แล้วมันจะทำให้เฟรมนั้นขยับเป็นคลิปสั้น มันไม่สร้างภาพนิ่งและไม่ทำ text-to-video ทำเพียงสิ่งเดียวคือ "ทำให้ภาพนี้ขยับ" คุณจะเจอมันในการสร้างวิดีโอด้วย AI บน ZOOOP

มันมาจากสายเดียวกับ Grok Imagine ตัวเดิม พื้นฐานจึงสืบทอดกันมา สิ่งที่ V1.5 แก้ได้จริงคือจุดสะดุดที่กวนใจที่สุดในเวอร์ชันก่อน

เรื่องใหญ่: ภาพในที่สุดก็อยู่ทรง

Grok Imagine ตัวเดิมถูกตำหนิเรื่องความเสถียรมากที่สุด ใบหน้าเลื่อน วัตถุหลักลอยไปมา องค์ประกอบฉากเปลี่ยนไปทีละเฟรม สิ่งที่ V1.5 ปรับปรุงคือเรื่องนี้พอดี ตลอดทั้งคลิป วัตถุหลัก ใบหน้า และฉากยังคงสอดคล้องกัน ไม่บิดเบี้ยวหรือเลื่อนไหล

สำหรับ image-to-video เรื่องนี้สำคัญกว่าความสวยล้วน ๆ คลิปที่ภาพละลายใช้ไม่ได้ ต่อให้แต่ละเฟรมคมแค่ไหนก็ตาม ส่วนคลิปที่อยู่ทรงตั้งแต่ต้นจนจบนั้นเอาไปใช้งานได้จริง ก้าวกระโดดที่ Grok Imagine V1.5 ทำได้ตรงนี้เห็นได้ด้วยตาเปล่า

การเคลื่อนไหวดีขึ้น และคว้าอันดับหนึ่ง

นอกจากความเสถียร คุณภาพการเคลื่อนไหวก็ดีขึ้นด้วย การที่ภาพนิ่งใบเดียวต่อยอดเป็นช็อตเคลื่อนไหวได้อย่างซื่อตรงแค่ไหน ถูกจัดการได้น่าเชื่อกว่าใน 1.0 ลดความรู้สึก "ปลอม" ลง

พูดตามตรง Grok Imagine V1.5 ขึ้นอันดับหนึ่งบน Image-to-Video Arena สาธารณะในช่วงพรีวิว กระดานจัดอันดับเป็นเพียงสัญญาณหนึ่ง ไม่ได้แปลว่าโมเดลชนะทุกสถานการณ์ แต่ก็บอกได้ว่าเวอร์ชันนี้อยู่ในกลุ่มหัวแถวในเรื่องการเปลี่ยนภาพนิ่งให้เป็นช็อตเคลื่อนไหว

เสียงยังมาพร้อมในตัวเหมือนเดิม

ขอเสริมหนึ่งข้อ เสียงไม่ใช่ของใหม่ใน V1.5 ตั้งแต่เจเนอเรชันก่อน Grok Imagine ก็ส่งวิดีโอพร้อมเสียงที่สร้างมาพร้อมภาพอยู่แล้ว ทั้งบทพูด เสียงบรรยากาศ เอฟเฟกต์ และมีลิปซิงก์กับตัวละครที่พูด เวอร์ชันใหม่เพียงคงมันไว้

ประโยชน์ยังจริงอยู่ เมื่อก่อนการทำคลิปสั้นมีเสียงต้องผ่านสามรอบ คือสร้างภาพ แล้วเติมเสียงด้วยเครื่องมือแยก แล้วจัดการเอฟเฟกต์ทับอีกชั้น แต่ที่นี่พรอมป์เดียวได้คลิปที่มีเสียงมาในตัว ประหยัดทั้งเวลาและความยุ่งยากในการจับเอาต์พุตจากหลายเครื่องมือมาให้ตรงกัน

สเปกโดยย่อ: ทำอะไรได้และทำอะไรไม่ได้

ตัวเลขใช้งานจริงสองสามอย่าง:

เอาต์พุต 720p หรือ 480p
1 ถึง 15 วินาที ค่าเริ่มต้น 5 วินาที
image-to-video เท่านั้น ต้องมีภาพเริ่มต้นก่อน

จุดเด่นชัดเจน ทำให้ทิวทัศน์หรือช็อตสินค้าขยับพร้อมเสียงบรรยากาศ ทำคลิปแนวตั้งสำหรับโซเชียล หรือชุบชีวิตภาพคอนเซปต์เพื่อเช็กจังหวะ

ขอบเขตก็ควรบอกด้วย Grok Imagine V1.5 สูงสุดที่ 720p ไม่ใช่โมเดลปิดงานระดับ 1080p / 4K มันขยับช็อตเดียว ไม่ทำการตัดสลับหลายช็อต และเสกภาพจากความว่างเปล่าไม่ได้ ถ้ายังไม่มีเฟรมให้ขยับ ให้สร้างขึ้นมาด้วยการสร้างภาพด้วย AI ก่อนแล้วป้อนเข้าไป สำหรับความละเอียดสูงกว่าหรือการตัดต่อหลายช็อต โมเดลวิดีโอที่หนักกว่าอย่าง Kling V3, Seedance V2.0, Veo 3.1… เป็นเป้าหมายที่เหมาะกว่า

มันหมายความว่าอะไรต่อครีเอเตอร์

ลองคิดเลขดูก็เข้าใจ การทำคลิปสั้นมีเสียงเมื่อก่อนต้องสลับไปมาระหว่างสร้างฟุตเทจ พากย์เสียง และเติมเอฟเฟกต์ ที่แย่กว่านั้นคือเฟรมเดียวที่เพี้ยนอาจทำทั้งเทคพังได้ Grok Imagine V1.5 ย่นห่วงโซ่นี้และเสริมความเสถียร นั่นคือเวลาที่ประหยัดได้จริงสำหรับคนที่ปล่อยคลิปสั้นมีเสียงจำนวนมาก

มันไม่ใช่โมเดลที่ทำได้ทุกอย่าง จุดแข็งคือ "ทำให้ภาพนี้ขยับ อย่างเสถียร และมีเสียง" ภาพคนพูด การเคลื่อนไหวสินค้า คลิปโซเชียล พรีวิวไว ๆ เมื่อต้องการงานปิดความละเอียดสูงหรือการตัดต่อซับซ้อน ให้ส่งช็อตไปให้โมเดลอื่น การแบ่งงานแบบนี้คือส่วนหนึ่งที่ทำให้ Grok Imagine V1.5 ใช้งานได้ดีในเลนของตัวเอง

เริ่มต้นบน ZOOOP อย่างไร

ในการสร้างวิดีโอด้วย AI บน ZOOOP เลือก Grok Imagine V1.5 อัปโหลดภาพเริ่มต้น (มันจะกลายเป็นเฟรมแรก) เขียนพรอมป์อธิบายการเคลื่อนไหว ตั้งความละเอียดและความยาว แล้วสั่งสร้าง

บน ZOOOP ทุกโมเดลใช้เครดิตชุดเดียวกัน และเครดิตไม่มีวันหมดอายุ คุณจึงสลับไปมาระหว่างโมเดลได้โดยไม่ต้องกลัวเลือกผิดแล้วเสียเปล่า หากอยากดูพารามิเตอร์และตัวอย่างก่อน ดูได้ที่หน้าโมเดล Grok Imagine V1.5