Mới đây, tập đoàn Alibaba lại gia tăng sức nóng cho cuộc đua AI khi ra mắt EMO (Emote Portrait Alive) - công cụ AI giúp nhân vật trên các bức ảnh tĩnh có thể hát hoặc nói như người thật.
AI EMO (Emote Portrait Alive) là gì?
EMO AI (Emote Portrait Alive) là một khuôn khổ mới cho việc tạo video chân dung biểu cảm, phát triển bởi Linrui Tian, Qi Wang, Bang Zhang, và Liefeng Bo từ Viện Tính toán Thông minh, Nhóm Alibaba. Dự án này cho phép tạo ra video avatar biểu cảm với các biểu cảm khuôn mặt đa dạng và các tư thế đầu khác nhau chỉ từ một ảnh chân dung tham chiếu và âm thanh giọng nói. Giúp tạo nhân vật nói chuyện hoặc hát, với khả năng duy trì nhân dạng nhân vật qua thời gian dài. Đồng thời hỗ trợ nhiều ngôn ngữ cũng như phong cách chân dung khác nhau.
Điều làm nên sự khác biệt của EMO là cách tiếp cận để tạo ra những hoạt ảnh này. Thay vì dựa vào các phương pháp truyền thống thường gặp khó khăn trong việc nắm bắt các sắc thái biểu đạt của con người, EMO trực tiếp chuyển đổi dạng sóng âm thanh thành khung hình video. Điều này có nghĩa là nó không cần các mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt để tạo hoạt ảnh. Thay vào đó, nó tập trung vào việc ghi lại những chuyển động tinh tế trên khuôn mặt và các phong cách khuôn mặt riêng lẻ liên quan đến giọng nói tự nhiên.
Với một bức ảnh chân dung kèm tệp âm thanh, EMO có thể tự tạo ra video có thời lượng tối đa là 1 phút 30 giây. Điều đáng chú ý là sự chân thực của các video tạo ra bởi EMO, với chuyển động và biểu cảm khuôn mặt hoàn toàn trùng khớp với file âm thanh đầu vào.
Theo chia sẻ, EMO được huấn luyện từ một tập dữ liệu gồm hơn 250 giờ âm thanh từ các bài diễn thuyết, phim ảnh, chương trình truyền hình và buổi hòa nhạc. Do đó, thay vì dựa vào đầu vào hình ảnh như các công cụ AI khác, EMO có thể chuyển đổi trực tiếp dải âm thanh thành các khung hình video. Chính điều này đã giúp EMO nổi bật hơn so với các công cụ AI có tính năng tương tự như D-ID hay Heygen.
Một số video do EMO AI (Emote Portrait Alive) tạo ra:
EMO AI (Emote Portrait Alive) hoạt động như thế nào?
Hệ thống EMO hoạt động theo hai giai đoạn chính: Quá trình mã hóa khung và khuếch tán.
Mã hóa khung hình: Trích xuất các đặc điểm từ hình ảnh tham chiếu và khung hình chuyển động để thiết lập nền tảng cho hoạt ảnh.
Quá trình khuếch tán: Sử dụng bộ mã hóa âm thanh được đào tạo trước để xử lý âm thanh đầu vào. Nó tích hợp mặt nạ vùng khuôn mặt với nhiễu đa khung để tạo hoạt ảnh. Mạng xương sống khử nhiễu hoạt ảnh, được hỗ trợ bởi các cơ chế Chú ý tham chiếu và Chú ý âm thanh. Mô-đun tạm thời điều chỉnh tốc độ chuyển động.
Bạn có thể làm gì với EMO?
EMO cung cấp một công cụ linh hoạt để tạo video hoạt hình sống động như thật, mở rộng khả năng tạo nội dung mang tính cá nhân và biểu cảm, chẳng hạn như:
Ngôn ngữ & Phong cách: Hỗ trợ nhiều ngôn ngữ và kiểu chân dung đa dạng, ghi lại các biến thể âm sắc cho hoạt ảnh avatar động.
Nhịp điệu nhanh: Đảm bảo đồng bộ hóa hoạt ảnh nhân vật với nhịp điệu nhanh.
Nói: Tạo ảnh động cho các bức chân dung tương ứng với âm thanh được nói đầu vào bằng nhiều ngôn ngữ và phong cách khác nhau.
Diễn xuất của nhiều diễn viên: Miêu tả các nhân vật trong phim hoặc phương tiện truyền thông khác trong bối cảnh đa ngôn ngữ và đa văn hóa.
Tóm lại, EMO hay còn gọi là Emote Portrait Alive là một bước tiến đáng kể trong công nghệ hoạt hình. Nó có thể biến những bức ảnh tĩnh thành video sống động trong đó các đối tượng dường như đang trò chuyện hoặc hát một cách thực tế. EMO đạt được điều này bằng cách chuyển đổi trực tiếp âm thanh thành khung hình video, ghi lại chính xác nét mặt và chuyển động. Mặc dù EMO mang đến những khả năng thú vị để tạo nội dung trực quan động nhưng những lo ngại về mặt đạo đức về khả năng sử dụng sai mục đích của nó phải được giải quyết. Tuy nhiên, EMO trình bày một công cụ có giá trị để làm cho hình ảnh tĩnh trở nên sống động và có khả năng thay đổi cách chúng ta tương tác với phương tiện trực quan trong tương lai.
Tài liệu nghiên cứu về EMO AI (Emote Portrait Alive) bạn có thể tải về tại đây.
Post a Comment