Công nghệ "nhân bản" giọng người: Microsoft chưa vội vàng ra mắt vì lý do gì?

Siêu trí tuệ nhân tạo VALL-E 2 của Microsoft: "Nhái" giọng người chỉ với 3 giây, mở ra tiềm năng to lớn nhưng cũng tiềm ẩn nhiều rủi ro

Jul 22, 2024 - 13:33
 0  10
Công nghệ "nhân bản" giọng người: Microsoft chưa vội vàng ra mắt vì lý do gì?

Microsoft đã hoàn thành phát triển VALL-E 2, mô hình AI có khả năng "nhái" giọng nói của con người chỉ với 3 giây thu âm. Tuy nhiên, do khả năng mô phỏng giọng nói quá giống thật, VALL-E 2 hiện chỉ được cung cấp cho mục đích nghiên cứu và chưa được phát hành rộng rãi.

VALL-E 2 hoạt động như thế nào?

  • Mô hình ngôn ngữ codec neural: VALL-E 2 sử dụng kỹ thuật mạng nơ-ron để mã hóa và giải mã thông tin ngôn ngữ.
  • Tổng hợp văn bản thành giọng nói (TTS): Khác với VALL-E, VALL-E 2 có thể tạo giọng nói cho bất kỳ ai, kể cả những người mà nó chưa từng được đào tạo trước đó.
  • Đào tạo trên kho dữ liệu khổng lồ: VALL-E 2 được đào tạo trên kho dữ liệu LibriSpeech và VCTK, cho phép nó tạo ra các biến thể giọng nói phong phú, bao gồm ngữ điệu, nhịp điệu và cảm xúc.
  • "Học" giọng nói từ người thật: VALL-E 2 có thể "học" giọng nói của một người chỉ với 3 giây thu âm, sau đó sử dụng giọng nói đó để tạo ra các đoạn hội thoại hoàn chỉnh dựa trên văn bản đầu vào.

images-1.webp

VALL-E 2 mang đến những lợi ích gì?

  • Giọng nói tự nhiên, mượt mà: Nhờ khả năng học hỏi và mô phỏng giọng nói tinh vi, VALL-E 2 có thể tạo ra các đoạn hội thoại nghe như thật, không thể phân biệt được với giọng người.
  • Ứng dụng tiềm năng rộng lớn: VALL-E 2 có thể được ứng dụng trong nhiều lĩnh vực như giáo dục, giải trí, hỗ trợ người khuyết tật, v.v.
  • Nâng cao trải nghiệm người dùng: Giọng nói tự nhiên sẽ giúp người dùng tương tác với máy móc một cách dễ dàng và thoải mái hơn.

Tuy nhiên, VALL-E 2 cũng tiềm ẩn những rủi ro:

  • Lạm dụng và lừa đảo: Khả năng mô phỏng giọng nói hoàn hảo có thể bị lạm dụng cho mục đích xấu như lừa đảo, mạo danh người khác.
  • Nguy cơ mất việc làm: Việc sử dụng VALL-E 2 trong một số lĩnh vực có thể dẫn đến nguy cơ mất việc làm cho con người.
  • Vấn đề đạo đức: Việc tạo ra giọng nói giống thật của một người có thể ảnh hưởng đến danh tiếng và uy tín của họ.

Microsoft nhận thức được những rủi ro này và hiện đang hợp tác với các chuyên gia đạo đức để đảm bảo VALL-E 2 được sử dụng một cách có trách nhiệm.