Video-to-Audio เอไอ ตัวใหม่ที่มีความสามารถสร้างเสียงจากคลิปวิดีโอ พัฒนาโดย DeepMind ของ Google แล้ว AI ตัวนี้สามารถทำอะไรได้บ้าง?
Video-to-Audio หรือ V2A ทำอะไรได้?
DeepMind ได้ประกาศอย่างเป็นทางการว่า พวกเขาสามารถพัฒนาเทคโนโลยี V2A ที่ย่อมาจาก Video-to-Audio ซึ่งเป็นการพัฒนาครั้งสำคัญของปัญญาประดิษฐ์ ในขณะที่องค์กรจำนวนมาก รวมถึง DeepMind ได้พัฒนาโมเดลปัญญาประดิษฐ์ที่สร้างวิดีโอ แต่โมเดลเหล่านี้ไม่สามารถสร้างเอฟเฟกต์เสียงเพื่อซิงค์กับวิดีโอเหล่านั้นได้
“โมเดลการสร้างวิดีโอกำลังก้าวหน้าไปด้วยความเร็วที่น่าเหลือเชื่อ แต่ระบบปัจจุบันเอไอจำนวนมากสร้างผลลัพธ์ที่ไร้เสียงได้เพียงเท่านั้น” DeepMind เขียน “เทคโนโลยี V2A อาจกลายเป็นแนวทางที่มีแนวโน้มในการสร้างชีวิตชีวาให้กับภาพยนตร์”
เทคโนโลยี V2A ของ DeepMind นำคำอธิบายประกอบดนตรี เช่น “แมงกะพรุนพัลส์ใต้น้ำ สัตว์ทะเล มหาสมุทร” มาจับคู่กับวิดีโอเพื่อสร้างดนตรี เสียงประกอบ และแม้กระทั่งบทสนทนาที่ตรงกับตัวละครและโทนของวิดีโอ
DeepMind บอกว่า โมเดล AI ที่ขับเคลื่อนด้วย V2A ได้รับการฝึกฝนบนชุดของเสียง บทสนทนา และคลิปวิดีโอ
“ด้วยการฝึกฝนบนวิดีโอ เสียง และคำอธิบายประกอบเพิ่มเติม เทคโนโลยีของเราเรียนรู้ที่จะเชื่อมโยงกับเสียงที่มีความเฉพาะเจาะจงกับฉากภาพต่างๆ ในขณะเดียวกันก็ตอบสนองต่อข้อมูลที่ระบุไว้ในคำอธิบายประกอบหรือบทสนทนา” DeepMind กล่าว
ความแตกต่างของ V2A กับ AI ตัวอื่น ๆ
เครื่องมือสร้างเสียงด้วย AI ไม่ใช่เรื่องแปลกใหม่นัก อย่างสตาร์อัพที่ชื่อว่า Stability AI ก็เพิ่งเปิดตัวเมื่อสัปดาห์ที่แล้ว และ ElevenLabs ที่เปิดตัวในเดือนพฤษภาคมนอกจากนี้ยังมี AU ของ Microsoft ที่สามารถสร้างวิดีโอที่พูดและร้องเพลงได้จากภาพนิ่ง และแพลตฟอร์มอื่น ๆ เช่น Pika และ GenreX ที่เป็น AI คาดเดาว่าเพลงหรือเอฟเฟกต์ใดเหมาะสมกับฉากนั้น
แต่ DeepMind อ้างว่าเทคโนโลยี V2A ของพวกเขาต่างออกไปตรงที่สามารถเข้าใจพิกเซลดิบจากวิดีโอและซิงค์เสียงที่สร้างขึ้นกับวิดีโอโดยอัตโนมัติ โดยไม่ต้องมีคำอธิบายประกอบ
V2A ยังไม่สมบูรณ์แบบ และ DeepMind ยอมรับเรื่องนี้ แต่โดยทั่วไปแล้ว เสียงที่สร้างขึ้นนั้นนับว่าน่าทึ่งมาก
Video-to-Audio เอไอ ใช้ได้เมื่อไหร่
เพราะยังไม่สมบูรณ์ และป้องกันการใช้ในทางที่ผิด DeepMind กล่าวว่าจะไม่เผยแพร่เทคโนโลยีนี้ต่อสาธารณะในเร็ว ๆ นี้ ไม่ว่าจะด้วยกรณีใดก็ตาม
“เพื่อให้แน่ใจว่าเทคโนโลยี V2A ของเราสามารถส่งผลกระทบเชิงบวกต่อชุมชนสร้างสรรค์ เราจึงรวบรวมมุมมองและข้อมูลเชิงลึกที่หลากหลายจากผู้สร้างและผู้สร้างภาพยนตร์ชั้นนำ และใช้ข้อเสนอแนะที่มีค่านี้เพื่อสนับสนุนการวิจัยและพัฒนาอย่างต่อเนื่องของเรา” DeepMind กล่าว
อ้างอิง techcrunch cover iT24Hrs
อ่านบทความและข่าวอื่นๆเพิ่มเติมได้ที่ it24hrs.com
Video-to-Audio เอไอ สร้างเสียงจากคลิปวิดีโอจาก DeepMind
อย่าลืมกดติดตามอัพเดตข่าวสาร ทิปเทคนิคดีๆกันนะคะ Please follow us
Youtube it24hrs
Twitter it24hrs
Tiktok it24hrs
facebook it24hrs