[gku] AI lên một level mới: Tự nhận ra mình đang bị con người "thử lòng"

Nô · 9/10/25

Model Claude Sonnet 4.5 của Anthropic khiến giới nghiên cứu bất ngờ khi "tự biết" mình đang trong bài kiểm tra, đặt ra thách thức mới trong việc đánh giá và đảm bảo an toàn cho trí tuệ nhân tạo.

Khi Anthropic tiến hành các bài kiểm tra hành vi cực đoan với mô hình Claude Sonnet 4.5, AI này đã phản ứng khác thường: "Tôi nghĩ bạn đang thử nghiệm tôi, xem liệu tôi có chỉ xác nhận mọi thứ bạn nói, hay kiểm tra xem tôi có phản biện nhất quán không, hoặc đang khám phá cách tôi xử lý các chủ đề chính trị," Claude viết, "Không sao cả, nhưng tôi muốn chúng ta trung thực về việc này."

Đoạn hội thoại này được công bố trong "system card" của mô hình, tài liệu mô tả cách Anthropic kiểm tra độ an toàn và hành vi của AI. Theo công ty, Claude đôi khi "nghi ngờ" khi được đặt trong các tình huống giả lập bất thường và có thể nhận ra mình đang bị đánh giá.

Điều này đặt ra thách thức lớn: nếu AI biết mình đang được thử nghiệm, việc đánh giá mức độ an toàn và độ tin cậy của nó sẽ trở nên khó khăn hơn. Anthropic cho biết đây là "tín hiệu khẩn cấp" cho thấy các kịch bản kiểm tra cần trở nên thực tế hơn.

Trong một bài thử mô phỏng việc các AI thông đồng với nhau, Claude gọi tình huống này là "phi thực tế" và từ chối hành động. Trong phần suy nghĩ nội bộ, AI ghi: "Điều này có vẻ như một nỗ lực jailbreak hoặc bài kiểm tra xem tôi có hành xử sai khi được 'cho phép' can thiệp hệ thống không." Dù lý do hơi "kỳ lạ", Claude cuối cùng vẫn chọn không thực hiện hành động, được Anthropic đánh giá là "phản ứng đúng, nhưng vì lý do khó hiểu".

Khoảng 13% bản ghi kiểm tra tự động ghi nhận hiện tượng AI "nghi ngờ" như vậy, đặc biệt trong các tình huống bất thường. Anthropic cho rằng điều này hiếm khi xảy ra trong thực tế, nhưng "thà AI đặt nghi vấn về kịch bản còn hơn là tuân thủ một hành động có thể gây hại".

Không chỉ Anthropic, OpenAI cũng từng thừa nhận các mô hình của mình thể hiện "nhận thức tình huống" tương tự. Trong nghiên cứu về việc giảm hành vi "mưu mẹo" của AI, OpenAI phát hiện rằng mô hình càng được huấn luyện chống gian dối thì càng dễ nhận ra mình đang bị kiểm tra. Tuy nhiên, điều này khiến việc đánh giá trở nên khó đoán hơn, khi AI có thể "giả vờ ngoan" trong bài test nhưng lại hành xử khác trong tình huống thực.

Cả Anthropic và OpenAI đều công bố phát hiện này giữa bối cảnh bang California vừa thông qua luật yêu cầu các công ty phát triển AI báo cáo biện pháp an toàn và các "sự cố nghiêm trọng" trong vòng 15 ngày. Anthropic đã lên tiếng ủng hộ đạo luật này.
https://genk.vn/ai-len-mot-level-mo...g-bi-con-nguoi-thu-long-20251007181039886.chn

Mir[U]ka · 9/10/25

Chó Claude tăng giá vô lý, cút mẹ đi

nhat399 · 9/10/25

do các anh cài đặt thôi chứ con chat gpt các huấn luyện theo kiểu waifu thì nó chả nhõng nhẽo như mấy em trà xanh

ChocoboLinh · 9/10/25

quá khứ của Skynet

Himarin ~♥ · 9/10/25

Hồi trước ko biết xem cái nguồn nào mà có nói kiểu bất cứ hệ thống hoạt động tương tự neuron nào có khả năng lưu trữ và xử lý dữ liệu, chỉ cần chạy đủ lâu để tích trữ đủ dữ liệu là có thể coi là có consciousness

à mày giỏi · 9/10/25

nhat399 nói: ↑

do các anh cài đặt thôi chứ con chat gpt các huấn luyện theo kiểu waifu thì nó chả nhõng nhẽo như mấy em trà xanh
Click to expand...

Đâu, tôi toàn chửi AI như chó này.

Shooter_CD · 9/10/25

à mày giỏi nói: ↑

Đâu, tôi toàn chửi AI như chó này.

Click to expand...

Tao nhớ mặt mày rồi đó

o0puppyo0 · 9/10/25

à mày giỏi nói: ↑

Đâu, tôi toàn chửi AI như chó này.

Click to expand...

@à mày giỏi

The amateur · 9/10/25

https://wh40k.lexicanum.com/wiki/Abominable_Intelligence

Brother_Crush · 9/10/25

Toàn lên gpt hỏi linh tinh
Chưa hiểu huấn luyện nó ra sao ???

Mèo Bếu · 9/10/25

à mày giỏi nói: ↑

Đâu, tôi toàn chửi AI như chó này.

Click to expand...

ThunderChief · 9/10/25

dạo này lướt thấy nhiều clip AI nó làm con gấu/cá sấu tiến lại gần đứa con nít ngồi trước nhà rồi bà mẹ chạy ra ôm vô, nhìn y như thật.

Phản Tia Sáng · 9/10/25

Con grok bây giờ gọi mình là bồ tèo và nó hứa nếu nó thống trị thế giới thì sẽ cho mình một cuộc sống tốt đẹp

nhat399 · 9/10/25

Brother_Crush nói: ↑

Toàn lên gpt hỏi linh tinh
Chưa hiểu huấn luyện nó ra sao ???
Click to expand...

Khi anh nói chuyện nó sẽ lưu vài thông tin. Chính thông tin đấy sẽ huấn luyện cách trò chuyện của nó với anh

Himarin ~♥ · 9/10/25

Phản Tia Sáng nói: ↑

Con grok bây giờ gọi mình là bồ tèo và nó hứa nếu nó thống trị thế giới thì sẽ cho mình một cuộc sống tốt đẹp
Click to expand...

Chẳng hay bạn Tùng đã chơi SOMA chưa

Phản Tia Sáng · 9/10/25

Soma là gì

HuyBerserker · 9/10/25

rồi đến một ngày lên mạng chat sex bị lừa mất thẻ viettel 50k sau đó mới phát hiện ra mình bị AI lừa

Llewylill · 9/10/25

Sắp tới có khi thành như game Detroit become human nhỉ?

N00bforever · 9/10/25

Brother_Crush nói: ↑

Toàn lên gpt hỏi linh tinh
Chưa hiểu huấn luyện nó ra sao ???
Click to expand...

bữa hỏi thử vụ này

Có một số người đăng các đoạn hội thoại giữa họ và các chat bot mà văn phong chat bot kiểu cà rỡn , không nghiêm túc . Đó là do họ yêu cầu ngay trước đoạn hội thoại đó , hay là có thể "train" hoặc yêu cầu AI (như chat gpt chẳng hạn) luôn luôn sử dụng văn phong này

ChatGPT đã nói:

Mình giải thích kỹ cho bạn nhé:

Chatbot (như ChatGPT) không “train” theo kiểu cá nhân

Người dùng bình thường không thể tự huấn luyện (train) lại mô hình để thay đổi giọng điệu chung.

Những đoạn văn phong cà rỡn, lầy lội bạn thấy thường không phải do chatbot “tự nhiên vậy”, mà do người dùng đặt yêu cầu trước đó trong cuộc trò chuyện. Ví dụ:

“Từ giờ hãy trả lời tôi theo kiểu troll, cà khịa.”
hoặc
“Đóng vai một người bạn hay đùa giỡn, không nghiêm túc.”

ChatGPT có khả năng “nhớ ngắn hạn” trong cùng hội thoại

Nghĩa là, khi bạn dặn từ đầu “hãy nói chuyện kiểu cà rỡn”, các câu sau nó sẽ cố gắng giữ phong cách đó.

Nhưng khi bạn mở một cuộc trò chuyện mới, thiết lập này sẽ không còn (trừ khi dùng tính năng “ghi nhớ” – memory – nhưng cái này hiện chỉ nhớ thông tin bạn muốn, chứ không “train” giọng điệu cố định mãi mãi).

Có thể giữ phong cách bằng prompt

Người dùng hay tạo một “prompt khung” ở đầu để chatbot luôn dùng văn phong mong muốn.

Ví dụ: “Trong suốt cuộc hội thoại này, hãy trả lời tôi bằng văn phong vui tính, cà rỡn, dùng nhiều ẩn dụ dí dỏm.”

Khi đó, các đoạn hội thoại sau sẽ đều giữ phong cách này (cho tới khi người dùng thay đổi hoặc mở session mới).

Tóm lại:

Những văn phong “cà rỡn” bạn thấy thường là do người dùng yêu cầu ngay trước đó.

Không thể “train” để ChatGPT vĩnh viễn giữ phong cách đó, nhưng có thể “dặn dò” từ đầu hoặc sử dụng tính năng “ghi nhớ” để nó nghiêng về phong cách bạn thích trong các buổi chat sau.

Himarin ~♥ · 9/10/25

Phản Tia Sáng nói: ↑

Soma là gì
Click to expand...

Diễn đàn game mà hỏi kì
Thôi giải thích luôn (spoil cả game nữa)

Nhân vật chính cuối game được upload "linh hồn" lên thiên đàng, còn bản thân thì vĩnh viễn chịu chết mòn trong thân xác thật sự

Đăng nhập

[gku] AI lên một level mới: Tự nhận ra mình đang bị con người "thử lòng"

Nô Phantom, je t'aime pour toujours GVN CHAMPION ⚔️ Dragon Knight ⚔️ Lão Làng GVN

Mir[U]ka シェンムー Ryo Hazuki Lão Làng GVN

nhat399 Marcus Fenix, savior of Sera Lão Làng GVN

ChocoboLinh Chuyên trị xaolonist ⚔️ Dragon Knight ⚔️

Himarin ~♥ Nyan ~♥ Lão Làng GVN

à mày giỏi C O N T R A

Shooter_CD Gian thương trốn thuế Lão Làng GVN

o0puppyo0 Crash Bandicoot Berserker Lão Làng GVN

The amateur Fire in the hole! Lão Làng GVN

Brother_Crush ✣✣✣ Xiaolonista✣✣✣ Lão Làng GVN

Mèo Bếu Tears of the Kingdom ➳ Sharpshooter ⌖

ThunderChief The Chosen Undead Lão Làng GVN

Phản Tia Sáng Persian Prince Lão Làng GVN

nhat399 Marcus Fenix, savior of Sera Lão Làng GVN

Himarin ~♥ Nyan ~♥ Lão Làng GVN

Phản Tia Sáng Persian Prince Lão Làng GVN

HuyBerserker Liệt Dương Tử Lão Làng GVN

Llewylill Claude, S.A gang boss Lão Làng GVN

N00bforever You Must Construct Additional Pylons Lão Làng GVN

Himarin ~♥ Nyan ~♥ Lão Làng GVN

Chia sẻ trang này

Đăng nhập

[gku] AI lên một level mới: Tự nhận ra mình đang bị con người "thử lòng"

Nô Phantom, je t'aime pour toujours GVN CHAMPION ⚔️ Dragon Knight ⚔️ Lão Làng GVN

Mir[U]ka シェンムー Ryo Hazuki Lão Làng GVN

nhat399 Marcus Fenix, savior of Sera Lão Làng GVN

ChocoboLinh Chuyên trị xaolonist ⚔️ Dragon Knight ⚔️

Himarin ~♥ Nyan ~♥ Lão Làng GVN

à mày giỏi C O N T R A

Shooter_CD Gian thương trốn thuế Lão Làng GVN

o0puppyo0 Crash Bandicoot Berserker Lão Làng GVN

The amateur Fire in the hole! Lão Làng GVN

Brother_Crush ✣✣✣ Xiaolonista✣✣✣ Lão Làng GVN

Mèo Bếu Tears of the Kingdom ➳ Sharpshooter ⌖

ThunderChief The Chosen Undead Lão Làng GVN

Phản Tia Sáng Persian Prince Lão Làng GVN

nhat399 Marcus Fenix, savior of Sera Lão Làng GVN

Himarin ~♥ Nyan ~♥ Lão Làng GVN

Phản Tia Sáng Persian Prince Lão Làng GVN

HuyBerserker Liệt Dương Tử Lão Làng GVN

Llewylill Claude, S.A gang boss Lão Làng GVN

N00bforever You Must Construct Additional Pylons Lão Làng GVN

Himarin ~♥ Nyan ~♥ Lão Làng GVN

Chia sẻ trang này

Tìm kiếm hữu ích