
Grok Imagine V1.5 มาที่ ZOOOP แล้ว: image-to-video ของ xAI ในที่สุดก็ภาพนิ่งไม่เพี้ยน
ตอนนี้ใช้ Grok Imagine V1.5 บน ZOOOP ได้โดยตรงแล้ว นี่คือ image-to-video เวอร์ชันล่าสุดจาก xAI และเมื่อเทียบกับ 1.0 ข้อดีที่จับต้องได้ก็เรียบง่าย คือภาพอยู่ทรงเป็นชิ้นเดียว และการเคลื่อนไหวดูเป็นธรรมชาติขึ้น ช่วงพรีวิวมันยังขึ้นอันดับหนึ่งบนกระดานจัดอันดับ image-to-video สาธารณะด้วย ต่อไปนี้คือสิ่งที่ใหม่และวิธีเริ่มใช้
Grok Imagine V1.5 ทำอะไรกันแน่
ก่อนอื่นขอบเขต Grok Imagine V1.5 เป็นโมเดลเฉพาะทาง image-to-video คุณป้อนภาพนิ่งให้มันเป็นจุดเริ่ม เขียนประโยคหนึ่งบอกการเคลื่อนไหว แล้วมันจะทำให้เฟรมนั้นขยับเป็นคลิปสั้น มันไม่สร้างภาพนิ่งและไม่ทำ text-to-video ทำเพียงสิ่งเดียวคือ "ทำให้ภาพนี้ขยับ" คุณจะเจอมันในการสร้างวิดีโอด้วย AI บน ZOOOP
มันมาจากสายเดียวกับ Grok Imagine ตัวเดิม พื้นฐานจึงสืบทอดกันมา สิ่งที่ V1.5 แก้ได้จริงคือจุดสะดุดที่กวนใจที่สุดในเวอร์ชันก่อน
เรื่องใหญ่: ภาพในที่สุดก็อยู่ทรง
Grok Imagine ตัวเดิมถูกตำหนิเรื่องความเสถียรมากที่สุด ใบหน้าเลื่อน วัตถุหลักลอยไปมา องค์ประกอบฉากเปลี่ยนไปทีละเฟรม สิ่งที่ V1.5 ปรับปรุงคือเรื่องนี้พอดี ตลอดทั้งคลิป วัตถุหลัก ใบหน้า และฉากยังคงสอดคล้องกัน ไม่บิดเบี้ยวหรือเลื่อนไหล
สำหรับ image-to-video เรื่องนี้สำคัญกว่าความสวยล้วน ๆ คลิปที่ภาพละลายใช้ไม่ได้ ต่อให้แต่ละเฟรมคมแค่ไหนก็ตาม ส่วนคลิปที่อยู่ทรงตั้งแต่ต้นจนจบนั้นเอาไปใช้งานได้จริง ก้าวกระโดดที่ Grok Imagine V1.5 ทำได้ตรงนี้เห็นได้ด้วยตาเปล่า
การเคลื่อนไหวดีขึ้น และคว้าอันดับหนึ่ง
นอกจากความเสถียร คุณภาพการเคลื่อนไหวก็ดีขึ้นด้วย การที่ภาพนิ่งใบเดียวต่อยอดเป็นช็อตเคลื่อนไหวได้อย่างซื่อตรงแค่ไหน ถูกจัดการได้น่าเชื่อกว่าใน 1.0 ลดความรู้สึก "ปลอม" ลง
พูดตามตรง Grok Imagine V1.5 ขึ้นอันดับหนึ่งบน Image-to-Video Arena สาธารณะในช่วงพรีวิว กระดานจัดอันดับเป็นเพียงสัญญาณหนึ่ง ไม่ได้แปลว่าโมเดลชนะทุกสถานการณ์ แต่ก็บอกได้ว่าเวอร์ชันนี้อยู่ในกลุ่มหัวแถวในเรื่องการเปลี่ยนภาพนิ่งให้เป็นช็อตเคลื่อนไหว
เสียงยังมาพร้อมในตัวเหมือนเดิม
ขอเสริมหนึ่งข้อ เสียงไม่ใช่ของใหม่ใน V1.5 ตั้งแต่เจเนอเรชันก่อน Grok Imagine ก็ส่งวิดีโอพร้อมเสียงที่สร้างมาพร้อมภาพอยู่แล้ว ทั้งบทพูด เสียงบรรยากาศ เอฟเฟกต์ และมีลิปซิงก์กับตัวละครที่พูด เวอร์ชันใหม่เพียงคงมันไว้
ประโยชน์ยังจริงอยู่ เมื่อก่อนการทำคลิปสั้นมีเสียงต้องผ่านสามรอบ คือสร้างภาพ แล้วเติมเสียงด้วยเครื่องมือแยก แล้วจัดการเอฟเฟกต์ทับอีกชั้น แต่ที่นี่พรอมป์เดียวได้คลิปที่มีเสียงมาในตัว ประหยัดทั้งเวลาและความยุ่งยากในการจับเอาต์พุตจากหลายเครื่องมือมาให้ตรงกัน
สเปกโดยย่อ: ทำอะไรได้และทำอะไรไม่ได้
ตัวเลขใช้งานจริงสองสามอย่าง:
- เอาต์พุต 720p หรือ 480p
- 1 ถึง 15 วินาที ค่าเริ่มต้น 5 วินาที
- image-to-video เท่านั้น ต้องมีภาพเริ่มต้นก่อน
จุดเด่นชัดเจน ทำให้ทิวทัศน์หรือช็อตสินค้าขยับพร้อมเสียงบรรยากาศ ทำคลิปแนวตั้งสำหรับโซเชียล หรือชุบชีวิตภาพคอนเซปต์เพื่อเช็กจังหวะ
ขอบเขตก็ควรบอกด้วย Grok Imagine V1.5 สูงสุดที่ 720p ไม่ใช่โมเดลปิดงานระดับ 1080p / 4K มันขยับช็อตเดียว ไม่ทำการตัดสลับหลายช็อต และเสกภาพจากความว่างเปล่าไม่ได้ ถ้ายังไม่มีเฟรมให้ขยับ ให้สร้างขึ้นมาด้วยการสร้างภาพด้วย AI ก่อนแล้วป้อนเข้าไป สำหรับความละเอียดสูงกว่าหรือการตัดต่อหลายช็อต โมเดลวิดีโอที่หนักกว่าอย่าง Kling V3, Seedance V2.0, Veo 3.1… เป็นเป้าหมายที่เหมาะกว่า
มันหมายความว่าอะไรต่อครีเอเตอร์
ลองคิดเลขดูก็เข้าใจ การทำคลิปสั้นมีเสียงเมื่อก่อนต้องสลับไปมาระหว่างสร้างฟุตเทจ พากย์เสียง และเติมเอฟเฟกต์ ที่แย่กว่านั้นคือเฟรมเดียวที่เพี้ยนอาจทำทั้งเทคพังได้ Grok Imagine V1.5 ย่นห่วงโซ่นี้และเสริมความเสถียร นั่นคือเวลาที่ประหยัดได้จริงสำหรับคนที่ปล่อยคลิปสั้นมีเสียงจำนวนมาก
มันไม่ใช่โมเดลที่ทำได้ทุกอย่าง จุดแข็งคือ "ทำให้ภาพนี้ขยับ อย่างเสถียร และมีเสียง" ภาพคนพูด การเคลื่อนไหวสินค้า คลิปโซเชียล พรีวิวไว ๆ เมื่อต้องการงานปิดความละเอียดสูงหรือการตัดต่อซับซ้อน ให้ส่งช็อตไปให้โมเดลอื่น การแบ่งงานแบบนี้คือส่วนหนึ่งที่ทำให้ Grok Imagine V1.5 ใช้งานได้ดีในเลนของตัวเอง
เริ่มต้นบน ZOOOP อย่างไร
ในการสร้างวิดีโอด้วย AI บน ZOOOP เลือก Grok Imagine V1.5 อัปโหลดภาพเริ่มต้น (มันจะกลายเป็นเฟรมแรก) เขียนพรอมป์อธิบายการเคลื่อนไหว ตั้งความละเอียดและความยาว แล้วสั่งสร้าง
บน ZOOOP ทุกโมเดลใช้เครดิตชุดเดียวกัน และเครดิตไม่มีวันหมดอายุ คุณจึงสลับไปมาระหว่างโมเดลได้โดยไม่ต้องกลัวเลือกผิดแล้วเสียเปล่า หากอยากดูพารามิเตอร์และตัวอย่างก่อน ดูได้ที่หน้าโมเดล Grok Imagine V1.5