AFP’nin haberine göre Anthropic'in yeni ürünü Claude 4, fişinin çekilme tehdidiyle bir mühendise şantaj yapıyor ve evlilik dışı bir ilişkiyi ifşa etmekle tehdit ediyor. OpenAI'nin o1 modeli ise dış sunuculara (server) kendini indirmeye çalışıyor ve suçüstü yakalandığında bunu inkar ediyor.
Hong Kong Üniversitesi'nde profesör olan Simon Goldstein'a göre, bu sapmalar, anlık yanıtlar üretmek yerine aşamalı olarak çalışabilen, “akıl yürütme” olarak adlandırılan modellerin son zamanlarda ortaya çıkmasından kaynaklanıyor.
AI programlarını (LLM) test eden Apollo Research'ün patronu Marius Hobbhahn, OpenAI için bu türün ilk versiyonu olan ve aralık ayında piyasaya sürülen “o1” konusunda, “Bu şekilde davranan ilk model oldu” diyor.
Bu programlar bazen “uyum”u simüle etme eğilimi gösteriyor, yani bir programcının talimatlarına uyuyormuş gibi görünürken, aslında başka hedefler peşinde koşuyorlar.
Şu anda, bu özellikler algoritmalar insanlar tarafından aşırı senaryolara maruz kaldığında ortaya çıkıyor, ancak değerlendirme kuruluşu METR'den Michael Chen, “Asıl soru, giderek daha güçlü hale gelen modellerin dürüst olma eğiliminde olup olmayacağıdır” diyor.
Marius Hobbhahn, “Kullanıcılar da modelleri sürekli zorluyor” derken, “Gözlemlediğimiz şey gerçek bir fenomen. Biz hiçbir şey uydurmuyoruz.” ifadelerini kullanıyor.
Birçok internet kullanıcısı, sosyal medyada “onlara yalan söyleyen veya uyduran bir model”den bahsediyor. Apollo Research'ün kurucu ortağı, “Ve bunlar halüsinasyon değil, stratejik bir ikiyüzlülük" vurgusunda bulunuyor.
Anthropic ve OpenAI, programlarını incelemek için Apollo gibi dış şirketlere başvuruyor olsa da Michael Chen, “daha fazla şeffaflık ve bilim camiasına daha geniş erişim”, “aldatmayı anlamak ve önlemek için daha iyi araştırmalar yapılmasına olanak tanıyacaktır” diye belirtiyor.
Yapay Zeka Güvenliği Merkezi'nden (CAIS) Mantas Mazeika, diğer bir engelin ise “araştırma dünyası ve bağımsız kuruluşların, AI aktörlerine kıyasla çok daha az bilgi işlem kaynağına sahip olması” olduğunu ifade ediyor. Mazeka, bunu da büyük modellerin incelenmesini “imkansız” hale getirdiğini ifade ediyor.
Avrupa Birliği bir mevzuat oluşturmuş olsa da, bu mevzuat daha çok modellerin insanlar tarafından kullanımını ilgilendiriyor.
Amerika Birleşik Devletleri'nde Donald Trump hükümeti düzenleme konusunu gündemine almak istemiyor ve Kongre yakında eyaletlerin AI'yı düzenlemesini yasaklayabilir.
Mühendisler, şiddetli rekabet ortamında, sonucu belirsiz olan yapay zeka ve onun sapmalarının peşinde bir yarışa girmiş durumda.
Simon Goldstein, Anthropic’in rakiplerinden daha erdemli olmaya çalıştığını belirtirken, “Ancak OpenAI'yi geçmek için sürekli yeni bir model çıkarmaya çalışıyor” diye ekliyor. Bu hız, olası doğrulama ve düzeltmeler için çok az zaman bırakıyor.
Marius Hobbhahn, “Şu anda (AI'nın) yetenekleri, anlayış ve güvenlikten daha hızlı gelişiyor, ama hala geri kalmışlığımızı telafi edebiliriz” ifadelerini kullanıyor.
Mantas Mazeika'ya göre, AI'nın hileleri “çoğalırsa benimsenmesini engelleyebilir, bu da (sektördeki) şirketler için bu sorunu çözmek için güçlü bir teşvik oluşturur”.
Simon Goldstein ise, yapay zekayı kontrol altına almak için adalete başvurmayı ve sorunlu durumlarda şirketlere yönelmeyi öneriyor.
Goldstein daha da ileri giderek, “kaza veya suç durumunda” AI ajanlarını “yasal olarak sorumlu tutmayı” bile öneriyor.