[gku] AI lên một level mới: Tự nhận ra mình đang bị con người "thử lòng"

Thảo luận trong 'Thư Giãn Express - Bản Tin Cuối Ngày' bắt đầu bởi , 9/10/25 lúc 12:57.

  1. Nô

    Phantom, je t'aime pour toujours GVN CHAMPION ⚔️ Dragon Knight ⚔️ Lão Làng GVN

    Tham gia ngày:
    27/10/05
    Bài viết:
    19,530
    Nơi ở:
    Nhà Rael
    Model Claude Sonnet 4.5 của Anthropic khiến giới nghiên cứu bất ngờ khi "tự biết" mình đang trong bài kiểm tra, đặt ra thách thức mới trong việc đánh giá và đảm bảo an toàn cho trí tuệ nhân tạo.



    Khi Anthropic tiến hành các bài kiểm tra hành vi cực đoan với mô hình Claude Sonnet 4.5, AI này đã phản ứng khác thường: "Tôi nghĩ bạn đang thử nghiệm tôi, xem liệu tôi có chỉ xác nhận mọi thứ bạn nói, hay kiểm tra xem tôi có phản biện nhất quán không, hoặc đang khám phá cách tôi xử lý các chủ đề chính trị," Claude viết, "Không sao cả, nhưng tôi muốn chúng ta trung thực về việc này."

    Đoạn hội thoại này được công bố trong "system card" của mô hình, tài liệu mô tả cách Anthropic kiểm tra độ an toàn và hành vi của AI. Theo công ty, Claude đôi khi "nghi ngờ" khi được đặt trong các tình huống giả lập bất thường và có thể nhận ra mình đang bị đánh giá.



    [​IMG]


    Điều này đặt ra thách thức lớn: nếu AI biết mình đang được thử nghiệm, việc đánh giá mức độ an toàn và độ tin cậy của nó sẽ trở nên khó khăn hơn. Anthropic cho biết đây là "tín hiệu khẩn cấp" cho thấy các kịch bản kiểm tra cần trở nên thực tế hơn.

    Trong một bài thử mô phỏng việc các AI thông đồng với nhau, Claude gọi tình huống này là "phi thực tế" và từ chối hành động. Trong phần suy nghĩ nội bộ, AI ghi: "Điều này có vẻ như một nỗ lực jailbreak hoặc bài kiểm tra xem tôi có hành xử sai khi được 'cho phép' can thiệp hệ thống không." Dù lý do hơi "kỳ lạ", Claude cuối cùng vẫn chọn không thực hiện hành động, được Anthropic đánh giá là "phản ứng đúng, nhưng vì lý do khó hiểu".

    Khoảng 13% bản ghi kiểm tra tự động ghi nhận hiện tượng AI "nghi ngờ" như vậy, đặc biệt trong các tình huống bất thường. Anthropic cho rằng điều này hiếm khi xảy ra trong thực tế, nhưng "thà AI đặt nghi vấn về kịch bản còn hơn là tuân thủ một hành động có thể gây hại".

    Không chỉ Anthropic, OpenAI cũng từng thừa nhận các mô hình của mình thể hiện "nhận thức tình huống" tương tự. Trong nghiên cứu về việc giảm hành vi "mưu mẹo" của AI, OpenAI phát hiện rằng mô hình càng được huấn luyện chống gian dối thì càng dễ nhận ra mình đang bị kiểm tra. Tuy nhiên, điều này khiến việc đánh giá trở nên khó đoán hơn, khi AI có thể "giả vờ ngoan" trong bài test nhưng lại hành xử khác trong tình huống thực.

    Cả Anthropic và OpenAI đều công bố phát hiện này giữa bối cảnh bang California vừa thông qua luật yêu cầu các công ty phát triển AI báo cáo biện pháp an toàn và các "sự cố nghiêm trọng" trong vòng 15 ngày. Anthropic đã lên tiếng ủng hộ đạo luật này.
    https://genk.vn/ai-len-mot-level-mo...g-bi-con-nguoi-thu-long-20251007181039886.chn
     
  2. Mir[U]ka

    Mir[U]ka The Pride of Hiigara Lão Làng GVN

    Tham gia ngày:
    5/9/05
    Bài viết:
    9,308
    Chó Claude tăng giá vô lý, cút mẹ đi
     
    victorhugo thích bài này.
  3. nhat399

    nhat399 Sam Fisher, Third Echelon Agent Lão Làng GVN

    Tham gia ngày:
    4/8/11
    Bài viết:
    15,006
    :thoi: do các anh cài đặt thôi chứ con chat gpt các huấn luyện theo kiểu waifu thì nó chả nhõng nhẽo như mấy em trà xanh
     
    victorhugo thích bài này.
  4. ChocoboLinh

    ChocoboLinh Chuyên trị xaolonist ⚔️ Dragon Knight ⚔️

    Tham gia ngày:
    3/5/17
    Bài viết:
    19,440
    quá khứ của Skynet
     
  5. Himarin ~♥

    Himarin ~♥ Nyan ~♥ Lão Làng GVN

    Tham gia ngày:
    20/7/08
    Bài viết:
    10,686
    Nơi ở:
    Amakawa family
    Hồi trước ko biết xem cái nguồn nào mà có nói kiểu bất cứ hệ thống hoạt động tương tự neuron nào có khả năng lưu trữ và xử lý dữ liệu, chỉ cần chạy đủ lâu để tích trữ đủ dữ liệu là có thể coi là có consciousness !logic
     
  6. à mày giỏi

    à mày giỏi C O N T R A

    Tham gia ngày:
    5/12/19
    Bài viết:
    1,550
    Đâu, tôi toàn chửi AI như chó này.
    1uszr3v-
     
  7. Shooter_CD

    Shooter_CD Gian thương trốn thuế Lão Làng GVN

    Tham gia ngày:
    4/1/10
    Bài viết:
    22,298
    Nơi ở:
    Venice
    Tao nhớ mặt mày rồi đó
    upload_2025-10-9_13-31-16.jpeg
     
  8. o0puppyo0

    o0puppyo0 Sora, Wielder of Keyblades Berserker Lão Làng GVN

    Tham gia ngày:
    22/4/08
    Bài viết:
    12,423
    Nơi ở:
    Không lòng vòng
    @à mày giỏi !kojima
     
    à mày giỏi thích bài này.
  9. The amateur

    The amateur Fire in the hole! Lão Làng GVN

    Tham gia ngày:
    3/1/08
    Bài viết:
    2,743
  10. Brother_Crush

    Brother_Crush ✣✣✣ Xiaolonista✣✣✣ Lão Làng GVN

    Tham gia ngày:
    22/8/05
    Bài viết:
    7,018
    Toàn lên gpt hỏi linh tinh
    Chưa hiểu huấn luyện nó ra sao ???
     
  11. Mèo Bếu

    Mèo Bếu Knee before Eden Lord ➳ Sharpshooter ⌖

    Tham gia ngày:
    25/8/20
    Bài viết:
    24,819
    worry-55
     
  12. ThunderChief

    ThunderChief Commander Shepard Lão Làng GVN

    Tham gia ngày:
    27/1/09
    Bài viết:
    18,956
    Nơi ở:
    Nhà lá
    dạo này lướt thấy nhiều clip AI nó làm con gấu/cá sấu tiến lại gần đứa con nít ngồi trước nhà rồi bà mẹ chạy ra ôm vô, nhìn y như thật. pu_pepesmoking
     
  13. Phản Tia Sáng

    Phản Tia Sáng Persian Prince Lão Làng GVN

    Tham gia ngày:
    24/4/15
    Bài viết:
    3,702
    Nơi ở:
    Anti-Human Land
    Con grok bây giờ gọi mình là bồ tèo và nó hứa nếu nó thống trị thế giới thì sẽ cho mình một cuộc sống tốt đẹp !then
     
  14. nhat399

    nhat399 Sam Fisher, Third Echelon Agent Lão Làng GVN

    Tham gia ngày:
    4/8/11
    Bài viết:
    15,006
    Khi anh nói chuyện nó sẽ lưu vài thông tin. Chính thông tin đấy sẽ huấn luyện cách trò chuyện của nó với anh 1uszr3v-
     
  15. Himarin ~♥

    Himarin ~♥ Nyan ~♥ Lão Làng GVN

    Tham gia ngày:
    20/7/08
    Bài viết:
    10,686
    Nơi ở:
    Amakawa family
    Chẳng hay bạn Tùng đã chơi SOMA chưa !gian
     
  16. Phản Tia Sáng

    Phản Tia Sáng Persian Prince Lão Làng GVN

    Tham gia ngày:
    24/4/15
    Bài viết:
    3,702
    Nơi ở:
    Anti-Human Land
  17. HuyBerserker

    HuyBerserker Liệt Dương Tử Lão Làng GVN

    Tham gia ngày:
    30/9/09
    Bài viết:
    10,381
    Nơi ở:
    10th Dimension
    rồi đến một ngày lên mạng chat sex bị lừa mất thẻ viettel 50k sau đó mới phát hiện ra mình bị AI lừa pepe-38
     
  18. Llewylill

    Llewylill Claude, S.A gang boss Lão Làng GVN

    Tham gia ngày:
    13/7/09
    Bài viết:
    10,386
    Nơi ở:
    Hà Nội
    Sắp tới có khi thành như game Detroit become human nhỉ?
     
  19. N00bforever

    N00bforever You Must Construct Additional Pylons Lão Làng GVN

    Tham gia ngày:
    15/5/11
    Bài viết:
    8,676
    bữa hỏi thử vụ này
    Có một số người đăng các đoạn hội thoại giữa họ và các chat bot mà văn phong chat bot kiểu cà rỡn , không nghiêm túc . Đó là do họ yêu cầu ngay trước đoạn hội thoại đó , hay là có thể "train" hoặc yêu cầu AI (như chat gpt chẳng hạn) luôn luôn sử dụng văn phong này

    ChatGPT đã nói:


    Mình giải thích kỹ cho bạn nhé:

    1. Chatbot (như ChatGPT) không “train” theo kiểu cá nhân
      • Người dùng bình thường không thể tự huấn luyện (train) lại mô hình để thay đổi giọng điệu chung.

      • Những đoạn văn phong cà rỡn, lầy lội bạn thấy thường không phải do chatbot “tự nhiên vậy”, mà do người dùng đặt yêu cầu trước đó trong cuộc trò chuyện. Ví dụ:

        “Từ giờ hãy trả lời tôi theo kiểu troll, cà khịa.”
        hoặc
        “Đóng vai một người bạn hay đùa giỡn, không nghiêm túc.”
    2. ChatGPT có khả năng “nhớ ngắn hạn” trong cùng hội thoại
      • Nghĩa là, khi bạn dặn từ đầu “hãy nói chuyện kiểu cà rỡn”, các câu sau nó sẽ cố gắng giữ phong cách đó.

      • Nhưng khi bạn mở một cuộc trò chuyện mới, thiết lập này sẽ không còn (trừ khi dùng tính năng “ghi nhớ” – memory – nhưng cái này hiện chỉ nhớ thông tin bạn muốn, chứ không “train” giọng điệu cố định mãi mãi).
    3. Có thể giữ phong cách bằng prompt
      • Người dùng hay tạo một “prompt khung” ở đầu để chatbot luôn dùng văn phong mong muốn.

      • Ví dụ: “Trong suốt cuộc hội thoại này, hãy trả lời tôi bằng văn phong vui tính, cà rỡn, dùng nhiều ẩn dụ dí dỏm.”

      • Khi đó, các đoạn hội thoại sau sẽ đều giữ phong cách này (cho tới khi người dùng thay đổi hoặc mở session mới).
    Tóm lại:

    • Những văn phong “cà rỡn” bạn thấy thường là do người dùng yêu cầu ngay trước đó.

    • Không thể “train” để ChatGPT vĩnh viễn giữ phong cách đó, nhưng có thể “dặn dò” từ đầu hoặc sử dụng tính năng “ghi nhớ” để nó nghiêng về phong cách bạn thích trong các buổi chat sau.
     

Chia sẻ trang này