อาลีบาบา เปิด โอเพ่นซอร์สโมเดลสำหรับการรังสรรค์และตัดต่อวิดีโอ

    อาลีบาบา เปิดตัว Wan 2.1-VACE (Video All-in-one Creation and Editing) ซึ่งเป็นโมเดลโอเพ่นซอร์สที่ใช้รังสรรค์และตัดต่อวิดีโอโมเดลล่าสุดของอาลีบาบา เครื่องมือล้ำสมัยนี้ ผสานรวมฟังก์ชันการประมวลผลวิดีโอหลากหลายฟังก์ชันไว้ในโมเดลหนึ่งเดียว เพื่อปรับปรุงกระบวนการสร้างวิดีโอให้มีประสิทธิภาพและประสิทธิผลมากขึ้น

    VACE เป็นโมเดลโอเพ่นซอร์สโมเดลแรกในอุตสาหกรรมที่มอบโซลูชันในการสร้างวิดีโอหลากหลายและโซลูชันสำหรับการตัดต่อวิดีโออย่างครบวงจร VACE เป็นส่วนหนึ่งของ Wan2.1 series ซึ่งเป็นโมเดลขนาดใหญ่ที่ใช้ในการสร้างวิดีโอของอาลีบาบา

    Wan2.1-VACE รองรับการสร้างวิดีโอจากอินพุตหลายรูปแบบ ไม่ว่าจะเป็น ข้อความ รูปภาพ และวิดีโอ ทั้งยังช่วยให้ผู้สร้างสรรค์วิดีโอสามารถตัดต่อวิดีโอได้อย่างครบวงจร ฟีเจอร์ด้านการตัดต่อเหล่านี้ รวมถึง ฟีเจอร์การอ้างอิงภาพหรือเฟรม การปรับวิดีโอใหม่ (video repainting) การแก้ไขวิดีโอบางส่วนที่เลือกไว้ และการขยายพื้นที่และเวลา ซึ่งช่วยให้สามารถผสมผสานการทำงานต่าง ๆ ได้อย่างยืดหยุ่นคล่องตัว ทำให้เกิดความคิดสร้างสรรค์เพิ่มขึ้น

     เครื่องมือล้ำสมัยนี้ช่วยให้ผู้ใช้สามารถสร้างวิดีโอที่มีเนื้อหาการปฏิสัมพันธ์อย่างเฉพาะเจาะจงตามตัวอย่างภาพต่าง ๆ และทำให้ภาพนิ่งมีชีวิตชีวาด้วยการเพิ่มเอฟเฟกต์เคลื่อนไหวที่เป็นธรรมชาติ สนุกสนานกับการใช้สุดยอดฟังก์ชัน video repainting ต่าง ๆ เช่น การสร้างภาพโดยใช้ท่าทางที่ต้องการโดยนำมาจากภาพอีกภาพหนึ่งของบุคคลนั้นที่มีการแสดงท่าทางที่ต้องการ (pose transfer)การควบคุมการเคลื่อนไหว (motion control) การควบคุมระยะชัดลึก (depth control) และการให้สีใหม่ (recolorization)

    โมเดลนี้ ยังรองรับการเพิ่ม แก้ไข หรือลบเนื้อหาส่วนที่เลือก โดยไม่กระทบต่อเนื้อหาที่แวดล้อมอยู่ และยังสามารถขยายขอบเขตวิดีโอ (video boundaries) ในขณะที่มีการใส่เนื้อหาอย่างชาญฉลาดเพื่อเพิ่มประสบการณ์การรับชม

     Wan2.1-VACE เป็นโมเดล AI ครบวงจร ที่มีความสามารถรอบตัวแบบไม่มีใครเทียบได้ ช่วยให้ผู้ใช้รวมฟังก์ชันหลากหลายไว้ด้วยกันได้อย่างราบรื่น และปลดล็อกศักยภาพในการสร้างสรรค์สิ่งใหม่ ผู้ใช้สามารถเปลี่ยนภาพนิ่งให้เป็นวิดีโอ โดยสามารถควบคุมการเคลื่อนไหวของวัตถุต่าง ๆ ได้ด้วยการระบุเส้นทางการเคลื่อนที่ (motion trajectory) สามารถแทนที่บุคลิก/ลักษณะ (characters) หรือวัตถุต่าง ๆ (objects) ด้วยการอ้างอิงที่ระบุไว้ (specified references), สร้างภาพเคลื่อนไหวให้กับ characters ที่อ้างอิงไว้, ควบคุมท่าทาง และ ทำภาพแนวตั้งให้เป็นแนวนอน เพื่อสร้างวิดีโอแนวนอน ในขณะที่เพิ่มองค์ประกอบใหม่ ๆ ผ่านการอ้างอิง

เทคโนโลยีต่าง ๆ ที่เป็นนวัตกรรม

    Wan2.1-VACE ใช้เทคโนโลยีใหม่ ๆ หลายอย่าง โดยคำนึงถึงความต้องการของงานตัดต่อวิดีโอที่แตกต่างกันที่เกิดขึ้นในระหว่างการคิดค้นโครงสร้างและการออกแบบ อินเทอร์เฟซครบวงจรที่เรียกว่าVideo Condition Unit (VCU) รองรับการประมวลผลอินพุตต่อเนื่องหลายรูปแบบได้อย่างครบถ้วนผ่านอินเทอร์เฟซเดียว ไม่ว่าจะเป็นข้อความ ภาพ วิดีโอ และมาสก์ต่าง ๆ

     โมเดลนี้ ใช้โครงสร้าง Context Adapter ที่แทรกคอนเซปต์งานต่าง ๆ ด้วยการใช้การแสดงมิติทางเวลาและเชิงพื้นที่อย่างมีแบบแผน ซึ่งช่วยให้โมเดลสามารถจัดการงานการสังเคราะห์วิดีโอหลากหลายได้อย่างยืดหยุ่น

     ความก้าวหน้าด้านสถาปัตยกรรมโมเดล ช่วยให้สามารถนำ Wan2.1-VACE ไปใช้อย่างกว้างขวาง เช่น ใช้ผลิตวิดีโอสั้นบนโซเชียลได้อย่างรวดเร็ว, สร้างคอนเทนต์เพื่อการโฆษณาและการตลาด, นำไปใช้ในกระบวนการ post-production และการประมวลผลเอฟเฟกต์พิเศษในวงการภาพยนต์และโทรทัศน์ และใช้ในการสร้างวิดีโอเพื่อการอบรมทางการศึกษา

    โมเดลพื้นฐานของวิดีโอเพื่อการฝึกอบรม ต้องใช้ทรัพยากรด้านการประมวลผลปริมาณมหาศาล และต้องใช้ข้อมูลที่ใช้ฝึกอบรมที่มีคุณภาพสูงจำนวนมาก การเปิดให้สามารถเข้าใช้โมเดลได้แบบระบบเปิด ช่วยลดอุปสรรคในการใช้ประโยชน์จาก AI ให้กับธุรกิจต่าง ๆ ได้มากขึ้น ช่วยให้ธุรกิจสามารถสร้างคอนเทนต์ที่อยู่ในรูปแบบของรูปภาพและวิดีโอ (visual content) คุณภาพสูงที่ปรับให้ตรงตามความต้องการเฉพาะของตนได้อย่างรวดเร็วและคุ้มค่าใช้จ่าย

     อาลีบาบา ได้เปิดโอเพ่นซอร์สโมเดล Wan2.1-VACE สองเวอร์ชัน คือ ขนาด 14-billion(B)-parameter และ ขนาด1.3-billion(B)-parameter โดยเปิดให้ดาวน์โหลดฟรีบน Hugging Face,GitHub และบน ModelScope ซึ่งเป็นคอมมิวนิตี้ด้านโอเพ่นซอร์สของอาลีบาบา คลาวด์

RELATED ARTICLE

Scroll to Top