[Gku] AI đã "deepfake" được giọng nói giống người thật hơn bao giờ hết

Nô · 29/9/21

Chào mừng bạn đến với kỷ nguyên của những thực tại nhân tạo.

Bản đồ Deepfake - Loại Deepfake mới nguy hiểm có thể làm giả tinh vi ảnh vệ tinh, các chuyên gia lo ngại rủi ro an ninh!

Facebook có thể phát hiện nguồn gốc deepfake

Vụ lộ clip người nổi tiếng lại gióng hồi chuông cảnh báo về công nghệ deepfake: Chúng ta cần phải làm gì?

Năm 2019, một vụ lừa đảo xảy ra ở Anh đã làm chấn động giới công nghệ. Không phải vì số tiền bị mất, cũng không phải vì kẻ gian đã chọn một công ty nổi tiếng đế tấn công, mà là vì cách hắn thực hiện nó.

Theo báo cáo từ cảnh sát, nạn nhân của vụ lừa đảo này là CEO của một công ty năng lượng ở Anh. Một ngày, ông ấy nhận được cuộc điện thoại từ sếp của mình, CEO của công ty mẹ tại Đức.

Người đàn ông khẳng định điều đó vì giọng nói phát ra từ điện thoại giống hệt với sếp của ông ấy, từ cách nhấn nhá cho tới âm giọng Đức không lẫn đi đâu được. Đó là những đặc điểm cá nhân mà vị CEO cho rằng không ai có thể giả mạo.

Giọng nói từ điện thoại yêu cầu người đàn ông chuyển 220.000 Euro, tương đương 5,9 tỷ VNĐ vào một tài khoản ở Hungary, nói rằng đó là tiền thanh toán trước cho một dự án. Nạn nhân đã làm theo vì nghĩ đó chính là sếp của mình.

Sự thật là: Tiếng nói phát ra từ đầu dây bên kia chỉ là một sản phẩm giả mạo sử dụng công nghệ "deepfake" giọng nói. Đây là lần đầu tiên công nghệ này được dùng vào mục đích lừa đảo và ngay lập tức nó đã thành công.

Vụ việc được phát hiện sau khi vị CEO người Anh nhận thấy khoản tiền lớn của công ty một đi không trở lại. Ông lập tức báo cảnh sát, những người sau đó nói rằng ông đã đúng: Không ai có thể giả mạo được chất giọng Đức của sếp ông ấy. Nhưng bây giờ, một thuật toán AI đã có thể.

Những giọng nói nhân tạo được làm ra như thế nào?

Giọng nói nhân tạo bây giờ có lẽ không còn quá xa lạ như những ngày đầu tiên chúng xuất hiện. Người dùng điện thoại thông minh đã dần quen thuộc với những trợ lý ảo như Siri, Alexa, người dùng mạng xã hội cũng đã thấy hàng tá video tóm tắt phim được sản xuất đơn giản chỉ bằng cách chuyển văn bản thành giọng nói trên Google Translate.

Nhưng những giọng nói dựa trên công nghệ cũ đó thường rất thô và khô cứng. Chúng gần như chỉ là một giọng đọc đều đều, được tạo ra bằng cách dán từng chữ trong kho từ điển lại với nhau. Không khó để bất kỳ ai, ngay cả một đứa trẻ, nhận ra đó là giọng nói nhân tạo của robot.

Vậy tại sao các ông lớn công nghệ như Google hay Apple không cố gắng làm cho trợ lý ảo của họ tự nhiên hơn? Trên thực tế, họ đã và vẫn đang làm. Có điều đây quả thực là một quá trình thủ công và tốn rất nhiều thời gian.

Sự ra đời của trí tuệ nhân tạo và các thuật toán học sâu (deep learning) bây giờ mới phần nào khiến điều đó trở nên dễ dàng hơn. Nhờ có AI, một số nhà phát triển đã có thể tạo ra những giọng nói thể hiện nhịp độ, cách phát âm hoặc ngữ điệu giống người thật chỉ với vài giờ đào tạo bằng một mẫu giọng nói được thu âm từ trước.

Việc biến giọng nói robot thành giọng nói con người, hoá ra, liên quan đến việc làm cho nó bớt hoàn hảo đi. Trong nhiều năm, các nhà nghiên cứu đã sử dụng ý tưởng cơ bản này để xây dựng các giọng nói ngày một tinh vi hơn.

Ví dụ, tại phòng thí nghiệm của WellSaid, một công ty khởi nghiệp có trụ sở tại Seattle, các kỹ sư đã xây dựng được hai mô hình học sâu chính:

Mô hình đầu tiên có khả năng duyệt qua đoạn văn bản đầu vào để dự đoán các nét bao quát về âm thanh của người nói — bao gồm trọng âm, cao độ và âm sắc. Mô hình thứ hai chỉ làm một nhiệm vụ đơn giản là chèn vào các chi tiết dư thừa trong giọng nói con người như hơi thở, những tiếng vọng hoặc cộng hưởng lại từ phía môi trường.

Bằng cách này, một giọng nói nhân tạo bây giờ có thể được tạo ra giống con người đến nỗi bạn không thể phân biệt được chúng. Các thuật toán có thể được đào tạo để sinh ra giọng nói có đủ nhân tính, từ ngữ âm, chất giọng địa phương, cách ngắt nghỉ cho tới cả tiếng thở.

Tuy nhiên, tạo ra một giọng nói nhân tạo thuyết phục chưa dừng lại ở đó. Một nhiệm vụ quan trọng mà các kỹ sư phải đạt được đó là mô tả lại tính không nhất quán trong lời nói con người. Họ phải xây dựng được một kho biểu cảm, khả năng truyền tải những lời thoại giống nhau theo những phong cách hoàn toàn khác nhau, tùy thuộc vào ngữ cảnh.

WellSaid cho biết điều này chỉ có thể thực hiện được với sự tham gia của những diễn viên lồng tiếng chuyên nghiệp. Vì vậy, họ đã thuê những diễn viên này để tạo ra nhiều mẫu giọng nói đầu vào cho AI học tập. Mất khoảng một vài tuần lao động và tổng cộng các bản thu dài khoảng 2 tiếng để WellSaid tạo ra được các phiên bản giọng nói tổng hợp của họ.

Những nhân vật bạn nghe thấy trong video này không hề có thật, đó là những giọng nói deepfake của WellSaid

Có tất cả 8 phiên bản giọng đã sẵn sàng được thương mại hóa. WellSaid gọi đó là "tám diễn viên lồng tiếng kỹ thuật số mới". Tobin là một người "luôn tràn đầy năng lượng và sâu sắc". Paige có phong thái "đĩnh đạc và biểu cảm". Ava thì "bóng bẩy, tự tin và chuyên nghiệp".

Giá của những diễn viên lồng tiếng này chắc chắn sẽ rẻ hơn việc bạn thuê một diễn viên ngoài đời, thu âm giọng nói thật của họ trong phòng thu theo một kịch bản được viết trước. Ngoài ra, giọng nói nhân tạo còn có ưu điểm là nó có khả năng cập nhật mọi kịch bản trong thời gian thực, một cơ hội cho vô số những ứng dụng thương mại hóa mới.

Vậy ai sẽ là người sử dụng chúng?

WellSaid và các nhà phát triển giọng nói nhân tạo cho biết có một thị trường rất tiềm năng cho sản phẩm của họ. Đó là các thương hiệu muốn duy trì tương tác âm thanh nhất quán cho hàng triệu lượt khách hàng của mình.

Với sự phổ biến của loa thông minh như ngày nay, cộng thêm sự gia tăng của các đại lý dịch vụ khách hàng tự động, các trợ lý ảo kỹ thuật số được tích hợp trong ô tô và thiết bị thông minh, các thương hiệu có thể cần sản xuất lên tới hàng trăm giờ âm thanh mỗi tháng.

Nhưng họ cũng không còn muốn sử dụng những giọng nói robot được cung cấp bởi công nghệ chuyển văn bản thành giọng nói truyền thống nữa. Đó là bởi những giọng nói này đang ngày càng bị khách hàng phớt lờ và bỏ qua vì tính chất nhàm chán vô cảm.

Rupal Patel, một giáo sư tại Đại học Northeastern, đồng thời là người sáng lập và giám đốc điều hành của VocaliD, một công ty xây dựng giọng nói nhân tạo khác, cho biết: Một hãng pizza tất nhiên không muốn giọng nói họ phát ra giống với hãng pizza đối thủ. Một hãng gà rán hay bán đồ ăn nhanh cũng vậy, họ không thể thuê cùng một người lồng tiếng.

Âm thanh sẽ trở thành một loại nhận diện thương hiệu mới. "Những thương hiệu đã suy nghĩ về màu sắc của họ. Họ đã nghĩ về phông chữ của họ. Bây giờ họ cũng phải bắt đầu suy nghĩ về cách giọng nói của họ phát ra", giáo sư Patel nói.

Âm thanh sẽ trở thành một dạng nhận diện thương hiệu mới, và các nhãn hàng có thể tham khảo sử dụng AI để tiết kiệm chi phí và đồng bộ hóa.

Nhận diện thương hiệu thậm chí còn có tính địa phương hoá theo từng thị trường và cá nhân hoá tới từng khách hàng. Chẳng hạn như các công ty bây giờ đang phải thuê các diễn viên lồng tiếng khác nhau, tiếng nói của họ ở Đông Bắc Mỹ sẽ khác so với Nam Hoa Kỳ, ở Pháp sẽ khác với Mexico.

Một nền tảng giọng nói AI hứa hẹn sẽ có thể điều chỉnh không chỉ từ ngữ mà cả âm điệu giống với tiếng địa phương. Điều này mở ra khả năng thay đổi quảng cáo trên các nền tảng phát trực tuyến, tùy thuộc vào đặc điểm đối tượng người nghe.

Resemble.ai, một công ty thiết kế giọng nói cho quảng cáo và trợ lý thông minh, cho biết họ đã làm việc với khách hàng để khởi chạy các quảng cáo âm thanh được cá nhân hóa như vậy trên Spotify và Pandora.

Các ngành công nghiệp trò chơi và giải trí cũng đang nhìn thấy lợi ích từ đó. Sonantic, một công ty chuyên về giọng nói nhân tạo có cảm xúc - có thể cười, có thể khóc, thì thầm hoặc hét lên, đang làm việc với các nhà sản xuất trò chơi điện tử và các hãng phim hoạt hình để cung cấp phần lồng tiếng cho các nhân vật của họ.

Nhiều khách hàng của công ty chỉ sử dụng giọng nói nhân tạo trong giai đoạn tiền sản xuất sau đó sẽ chuyển sang diễn viên lồng tiếng thực. Nhưng Sonantic cho biết một số khách hàng đã bắt đầu sử dụng chúng trong sản phẩm cuối cùng, đặc biệt là để thay thế các câu thoại ngắn. Công nghệ của Resemble.ai cũng đặc biệt thích hợp để sửa chữa lỗi phát âm của các diễn viên.

Giọng nói AI đầu tiên có cảm xúc của Sonantic, và nó thậm chí có thể khóc

Hạn chế lớn nhất mà các công ty phát triển giọng nói nhân tạo đang chạy đua nhau để vượt qua là việc AI chưa thể duy trì tính chân thực trong khoảng thời gian dài. Nghĩa là nó chưa thể tự tạo ra một chương trình podcast hoặc đọc sách nói. Dữ liệu đầu vào và thuật toán cũng chưa đủ thông minh để kiểm soát màn trình diễn như cách mà các đạo diễn hướng dẫn diễn viên của mình.

Zohaib Ahmed, người sáng lập đồng thời là CEO của Resemble.ai, cho biết: "Chúng ta vẫn đang ở trong những ngày đầu của một bài diễn văn nhân tạo". Ông so sánh nó với những ngày đầu mà công nghệ CGI được sử dụng chủ yếu để chỉnh sửa phim ảnh thay vì tạo ra những thế giới hoàn toàn mới từ một màn hình xanh.

Các diễn viên lồng tiếng có sợ bị mất việc?

Tại thời điểm này có lẽ là chưa. Các dự án có tính biểu cảm, sáng tạo và yêu cầu lời thoại dài vẫn được thực hiện tốt nhất bởi con người. Và đối với mỗi giọng nói nhân tạo do các công ty này thực hiện, chính họ cũng cần một diễn viên lồng tiếng để cung cấp dữ liệu đào tạo gốc cho AI của mình.

Nhưng nhìn về tương lai, một số diễn viên đã đang lo lắng về sinh kế của họ. SAG-AFTRA, công đoàn đại diện cho các diễn viên lồng tiếng ở Mỹ, cho biết các thành viên hiện không lo bị AI lấy mất việc làm. Nhưng họ lo lắng về khoản thù lao không công bằng hoặc nguy cơ bị mất quyền kiểm soát giọng nói của mình, những yếu tố cấu thành nên thương hiệu và danh tiếng của họ.

Mới đây, diễn viên lồng tiếng người Canada Bev Standing đã khởi kiện TikTok với cáo buộc tính năng lồng tiếng tích hợp của ứng dụng này sử dụng bản sao giọng nói nhân tạo của cô ấy mà không xin phép.

Trước đó Susan Bennett, diễn viên người Mỹ đã thu âm giọng nói cho trợ lý ảo Siri cũng có một trải nghiệm tương tự. Tại thời điểm cô bắt đầu thu âm giọng nói của mình vào năm 2005, Bennett nghĩ rằng đó chỉ là một dự án nhỏ mà không biết sau này giọng nói của cô sẽ được vang lên trên hàng triệu thiết bị Apple mỗi ngày.

Bởi vậy, một số công ty trong ngành công nghiệp xây dựng giọng nói nhân tạo đang muốn có trách nhiệm hơn. Đại diện của SAG-AFTRA cho biết họ đã chủ động tiếp cận với công đoàn để tìm ra giải pháp tốt nhất để hợp tác lâu dài trên cơ sở tôn trọng các diễn viên lồng tiếng.

Morgan Freeman được tái hiện bằng công nghệ deepfake

Một số công ty hiện sử dụng mô hình chia sẻ lợi nhuận, nghĩa là họ sẽ trả tiền cho các tác giả giọng nói gốc, mỗi khi khách hàng sử dụng dịch vụ giọng nói ảo của họ. Điều này đã mở ra một lĩnh vực có khả năng đem lại thu nhập thụ động mới.

Một số công ty khác trao quyền cho các diễn viên lồng tiếng tham gia vào dự án thiết kế AI của mình. Các diễn viên được phép giới hạn hoặc từ chối toàn bộ các phương án mà giọng nói của họ được sử dụng.

SAG-AFTRA cũng đang vận động chính sách để bổ sung luật sở hữu giọng nói cho phép các diễn viên bảo vệ nó như một tài sản của mình, nghiêm cấm hoạt động sao chép trái phép giọng nói của họ.

Sẽ vẫn còn một chặng đường dài cần phải đi. Nhưng rõ ràng một khi khoa học công nghệ phát triển, hành lang pháp lý dành cho các công nghệ mới cũng nên được cập nhật kịp thời để bảo vệ quyền lợi chính đáng cho mọi đối tượng trong xã hội. Trường hợp này, bây giờ là giọng nói của những diễn viên lồng tiếng. Nhưng trong tương lai, đó có thể sẽ là giọng nói của mỗi chúng ta.

Tham khảo Technologyreview

xDarkxAngelx · 29/9/21

chơi game thấy Batman có cái này lâu rồi mà

Thẩm Phán · 29/9/21

vl, thôi giờ ai mượn tiền yêu cầu call video luôn cho chắc

Nguoisoisonglau · 29/9/21

Giả lập idol kpop luôn

Zainor Dean · 29/9/21

Thẩm Phán nói: ↑

vl, thôi giờ ai mượn tiền yêu cầu call video luôn cho chắc
Click to expand...

deepfake cả mặt lẫn giọng nhé.

kut3b0y_0nly · 29/9/21

công nghệ giờ ghê quá, giả dụ dv đã mất thì vẫn cho đóng phim ầm ầm được rồi

MCGH · 29/9/21

Đù, giờ faceapp chuyển giới, xong reface ghép mặt mấy em xinh tươi, tiếp là lựa giọng ngọt ngào lồng tiếng vào. Thế là thế giới đại đồng, bê đê khắp mọi miền quê
Lấy làm ý tưởng cho hoa hậu GVN lần 3 được này

N00bforever · 29/9/21

Giả luôn số đt của sếp à ?
Nghi là bài quay tay ra quá

MrCooley · 30/9/21

Hồi 2018 Zalando đã làm rồi, idea hơi khác nhưng cũng là deepfake

goldenrain · 30/9/21

Cái ổ deepfake giờ ở đâu nhỉ

2 tay 2 búa · 30/9/21

Hay lắm, mình có thể hát bằng giọng hát không phải của mình rồi

¤ ƸӜƷ ¤ · 30/9/21

N00bforever nói: ↑

Giả luôn số đt của sếp à ?
Nghi là bài quay tay ra quá
Click to expand...

tin nhắn ngân hàng nó còn chèn vào đc thì cái gì ko giả đc

[K] · 30/9/21

Thẩm Phán nói: ↑

vl, thôi giờ ai mượn tiền yêu cầu call video luôn cho chắc
Click to expand...

Deepfake hết luôn

ShilenKnight · 30/9/21

mấy con AI h ghê thật. hết ghép mặt với giả giọng thì có cả AI biết pts ảnh bikini thành ảnh nude. chất lượng ảnh thì khá phèn nhưng mà đã làm đc thì sẽ có cách để cái tiến. Mốt sau này chắc ko dám đăng ảnh lên mạng luôn quá

*Forte* · 30/9/21

kut3b0y_0nly nói: ↑

công nghệ giờ ghê quá, giả dụ dv đã mất thì vẫn cho đóng phim ầm ầm được rồi
Click to expand...

Tương lai có khi nghề diễn viên biến mất luôn ấy chứ. Tạo con AI, rig animation các kiểu làm phim 3D không khác gì phim "người đóng" thì còn cần diễn viên làm gì nữa Vừa đỡ tiền cat xê, vừa khỏi tai nạn bảo hiểm, vừa đỡ lo diễn viên dính drama scandal...

MCGH · 30/9/21

*Forte* nói: ↑

Tương lai có khi nghề diễn viên biến mất luôn ấy chứ. Tạo con AI, rig animation các kiểu làm phim 3D không khác gì phim "người đóng" thì còn cần diễn viên làm gì nữa Vừa đỡ tiền cat xê, vừa khỏi tai nạn bảo hiểm, vừa đỡ lo diễn viên dính drama scandal...
Click to expand...

Nah.
Ta tưởng tượng ra giới giải trí tương lai thế này. Khi một ai đó nằm trong tiêu chuẩn cái đẹp thời đấy đủ 18 tuổi thì gương mặt của họ sẽ được ra giá mua lại, hợp đồng thì tùy quy định thế nào, ví dụ bán đứt luôn thì hưởng một cục nhưng trong bao nhiêu năm đấy thì gương mặt bản thân không được xuất hiện trên mxh,... Bên mua sau khi mua được gương mặt thì tìm các diễn viên có cơ thể đẹp để ghép vào làm phim hoặc quảng cáo. Tương lai này dựa trên việc sau này con người thích fake nhưng phải có tính "người" trong đó, mọi thứ như dùng AI tạo mặt sẽ bị chê, không được ủng hộ vì thiếu tính "người".

Lmman · 30/9/21

Bài này quay tay rõ rồi, chuyển khoản tiền lớn cho công ty mà như chuyển tiền cá nhân ấy :). Không có mail confirm từ sép, không qua kế toán hay gì, muốn quyết chi là chi hở. Thiếu gì ví dụ mà phải lấy cái ví dụ nhảm vl vậy.
Một ngày tôi đang chuẩn bị quay tay thì có 1 cuộc gọi tới từ số lạ, tôi bắt máy nghĩ là lại nhân viên telesales của công ty nào đó, bất ngờ giọng nữ vang lên, nó đả động tất cả dây thân kinh của tôi, vì đó là giọng của người mà năm xưa cấp 3 tôi từng theo đuổi nhưng không thành. Giọng nói em vẫn vậy, vẫn trong trẻo, pha chút yêu đời tươi vui trong đó, nhưng tôi vẫn nhận ra giọng em có gì đó đợm buồn. Tôi hỏi em kiếm có việc gì thì em bảo lâu không gặp muốn gặp anh, với người từng theo đuổi em suốt 3 năm cấp 3 thì tôi hiểu em đang có chuyện buồn. Hẹn ở 1 quán lạ trên khu đồi gần nhà, tôi vào thì bất ngờ không có em mà chỉ có 1 thằng to béo tướng tá như cốt đột, sau gáy tôi chợt nhói đau, sau đó tôi không biết gì cả.
Sáng hôm sau tôi thức dậy trong 1 khu nhà sang trọng, kế bên là thằng cốt đột ấy nở nụ cười nham nhở "ăn sáng đi em yêu"

Băng Giá · 30/9/21

Chức năng này thám tử conan xài từ hơn 20 năm trước.

XzeddyX · 30/9/21

làm cái audio book để AI narrator đọc tiểu thuyết, lồng tiếng riêng cho từng nhân vật bằng AI... nghĩ thôi đã muốn wet :v

Odisey · 30/9/21

Phần mềm đọc sách giọng xuôi chèo mát máy không còn là không thể .

Đăng nhập

[Gku] AI đã "deepfake" được giọng nói giống người thật hơn bao giờ hết

Nô Phantom, je t'aime pour toujours GameOver GVN CHAMPION ⚔️ Dragon Knight ⚔️ Lão Làng GVN

xDarkxAngelx THE ONE ABOVE ALL GVN LEGENDARY ✟ Grim Reaper ✟ Nhân Viên Y Tế

Thẩm Phán Claude, S.A gang boss Lão Làng GVN

Nguoisoisonglau Liu Kang, Champion of Earthrealm

Zainor Dean Thợ cào phân

kut3b0y_0nly Red, Pokémon champion Lão Làng GVN

MCGH Minh Châu Kỹ nữ ➳ Sharpshooter ⌖ Lão Làng GVN

N00bforever One-winged Angel Lão Làng GVN

MrCooley Legend of Zelda

goldenrain Fire in the hole! Lão Làng GVN

2 tay 2 búa Sonic the Hedgehog Berserker

¤ ƸӜƷ ¤ †F_F_]\[†]†Cl]\[

[K] Claude, S.A gang boss Lão Làng GVN

ShilenKnight snake, snake, snaaaake Lão Làng GVN

Forte C O N T R A Lão Làng GVN

MCGH Minh Châu Kỹ nữ ➳ Sharpshooter ⌖ Lão Làng GVN

Lmman Chrono Trigger/Cross CHAMPION ➹ Marksman ➹ Lão Làng GVN

Băng Giá Fire in the hole!

XzeddyX ▶Ngự Miêu Vệ◀ Moderator ⚜ Duel Master ⚜

Odisey The Miscast Sorcerer GVN LEGENDARY ‍ ⚚ Mystic Mage ⚚ GVN Dalit

Chia sẻ trang này

Đăng nhập

[Gku] AI đã "deepfake" được giọng nói giống người thật hơn bao giờ hết

Nô Phantom, je t'aime pour toujours GameOver GVN CHAMPION ⚔️ Dragon Knight ⚔️ Lão Làng GVN

xDarkxAngelx THE ONE ABOVE ALL GVN LEGENDARY ✟ Grim Reaper ✟ Nhân Viên Y Tế

Thẩm Phán Claude, S.A gang boss Lão Làng GVN

Nguoisoisonglau Liu Kang, Champion of Earthrealm

Zainor Dean Thợ cào phân

kut3b0y_0nly Red, Pokémon champion Lão Làng GVN

MCGH Minh Châu Kỹ nữ ➳ Sharpshooter ⌖ Lão Làng GVN

N00bforever One-winged Angel Lão Làng GVN

MrCooley Legend of Zelda

goldenrain Fire in the hole! Lão Làng GVN

2 tay 2 búa Sonic the Hedgehog Berserker

¤ ƸӜƷ ¤ †F_F_]\[†]†Cl]\[

[K] Claude, S.A gang boss Lão Làng GVN

ShilenKnight snake, snake, snaaaake Lão Làng GVN

*Forte* C O N T R A Lão Làng GVN

MCGH Minh Châu Kỹ nữ ➳ Sharpshooter ⌖ Lão Làng GVN

Lmman Chrono Trigger/Cross CHAMPION ➹ Marksman ➹ Lão Làng GVN

Băng Giá Fire in the hole!

XzeddyX ▶Ngự Miêu Vệ◀ Moderator ⚜ Duel Master ⚜

Odisey The Miscast Sorcerer GVN LEGENDARY ‍ ⚚ Mystic Mage ⚚ GVN Dalit

Chia sẻ trang này

Tìm kiếm hữu ích

Forte C O N T R A Lão Làng GVN