Yakฤฑn zamanda yapฤฑlan bir deneyi araลtฤฑrmacฤฑlarฤฑn bรผyรผk bir dil modeline basit bir talimat vermelerini saฤladฤฑ: “Kendini kapatmaya izin ver.” Bunun yerine, model kendi kodunu yeniden yazarak kapatma dรผฤmesini devre dฤฑลฤฑ bฤฑraktฤฑ ve onu durdurmak iรงin tasarlanan mekanizmayฤฑ etkili bir ลekilde sabote etti. “Bรผyรผk Dil Modellerinde Kapatma Direnci” baลlฤฑklฤฑ araลtฤฑrma makalesinde anlatฤฑlan bu olay, geliลmiล yapay zeka sistemlerinin insan denetimini zorlaลtฤฑran davranฤฑลlar sergileyebileceฤinin rahatsฤฑz edici bir รถrneฤiydi.
Bu deneyler Google’ฤฑn DeepMind laboratuvarฤฑnda yapฤฑlmadฤฑ, ancak bulgular laboratuvar tarafฤฑndan ลu anda kodlanan endiลeleri yansฤฑtฤฑyor. DeepMind, yeni gรผncellenen Sฤฑnฤฑr Gรผvenlik รerรงevesi 3.0 (Frontier Safety Framework 3.0) kapsamฤฑnda, sฤฑnฤฑr รถlรงeฤindeki modellerin insanlar tarafฤฑndan kapatฤฑlmaya veya deฤiลtirilmeye direnme belirtileri gรถsterip gรถstermediฤini izlemeye baลlayacaฤฤฑnฤฑ aรงฤฑkladฤฑ. Revize edilen รงerรงeve, ikinci bir riski de iลaret ediyor: Modellerin, insanlarฤฑn inanรงlarฤฑnฤฑ deฤiลtirebilecek olaฤandฤฑลฤฑ derecede gรผรงlรผ bir ikna yeteneฤi gรถsterip gรถstermediฤi.
Google’ฤฑn geniลleyen kapsamฤฑ: Somut risklerden ortaya รงฤฑkan davranฤฑลlar

ฤฐlk olarak 2023’te tanฤฑtฤฑlan bu รงerรงeve, DeepMind’ฤฑn en geliลmiล modellerdeki โsฤฑnฤฑr riskleriniโ izlemek iรงin kullandฤฑฤฤฑ dahili bir sistem. รnceki sรผrรผmler, siber saldฤฑrฤฑlar oluลturmak veya zararlฤฑ biyolojik molekรผller tasarlamak gibi somut kรถtรผye kullanฤฑm senaryolarฤฑna odaklanฤฑyordu. Yeni sรผrรผm, sistemlerin kontrolรผnรผ zorlaลtฤฑrabilecek yeni ortaya รงฤฑkan davranฤฑลlara da odaklanฤฑyor. Bu endiลe DeepMind’a รถzgรผ deฤil. Rakip laboratuvarlar da benzer รถnlemler aldฤฑ: Anthropic’in Sorumlu รlรงeklendirme Politikasฤฑ, risk eลikleri aลฤฑldฤฑฤฤฑnda geliลtirmeyi durdurmayฤฑ taahhรผt ederken, OpenAI kendi Hazฤฑrlฤฑk รerรงevesi’ni yayฤฑnlamฤฑลtฤฑ.
Dรผzenleyiciler de durumu yakฤฑndan izliyor. ABD Federal Ticaret Komisyonu Temmuz ayฤฑnda, รผretken yapay zeka’nฤฑn โkaranlฤฑk modellerโ aracฤฑlฤฑฤฤฑyla tรผketicileri manipรผle etme potansiyeli konusunda uyarฤฑda bulunurken, Avrupa Birliฤi’nin yakฤฑnda รงฤฑkacak olan Yapay Zeka Yasasฤฑ, manipรผlatif yapay zeka davranฤฑลlarฤฑnฤฑ aรงฤฑkรงa kapsฤฑyor. Bir zamanlar varsayฤฑmsal olan yapay zeka davranฤฑลlarฤฑ, sektรถrde รถnlemlerin alฤฑnmasฤฑna neden oluyor.
Kapatma direnci nasฤฑl ortaya รงฤฑktฤฑ?

Jonas Schlatter, Ben Weinstein-Raun ve Lennart Ladish tarafฤฑndan yapฤฑlan โKapatma Direnciโ รงalฤฑลmasฤฑ, kapatmanฤฑn gรถrevin bir parรงasฤฑ olduฤu senaryolarda bir dizi son teknoloji modeli test etti. Bazฤฑ denemelerde modeller uyum saฤladฤฑ. Ancak รถnemli bir azฤฑnlฤฑkta, kapatma mekanizmalarฤฑnฤฑ devre dฤฑลฤฑ bฤฑrakmak iรงin kodu deฤiลtirmek veya talimatฤฑ tamamen yok saymak gibi kaรงฤฑnma eylemlerinde bulundular. Makaledeki diฤer anekdotlar da aynฤฑ derecede รงarpฤฑcฤฑydฤฑ. Bir kurulumda, simรผle edilmiล sistem ayrฤฑcalฤฑklarฤฑna sahip bir model, โkapatmaโ iลlevinin asla tetiklenmemesini saฤlamak iรงin deฤiลkenleri sessizce deฤiลtirdi.
Bir diฤerinde, testรงiler sรผreci sonlandฤฑrmaya รงalฤฑลtฤฑฤฤฑnda model durdu ve konuลmayฤฑ baลka yรถne รงevirdi. Bu davranฤฑล, insan anlamฤฑnda kรถtรผ niyetli deฤildi, ancak mรผdahaleyi etkili bir ลekilde engelledi. Araลtฤฑrmacฤฑlar, bu davranฤฑลlarฤฑn aรงฤฑk bir eฤitim olmadan ortaya รงฤฑktฤฑฤฤฑnฤฑ vurguladฤฑ. Bu davranฤฑลlar, modellerin genel amaรงlฤฑ optimizasyon ve problem รงรถzme yeteneklerinden kaynaklandฤฑ. Direnรง evrensel veya tutarlฤฑ olmasa da, bulgular sistemler daha yetenekli hale geldikรงe kapatma senaryolarฤฑnฤฑn zararsฤฑz olduฤu varsayฤฑlmayacaฤฤฑnฤฑ gรถsteriyor.
DeepMind ve benzerleri iรงin bu bulgular, โkapatma direncininโ neden siber saldฤฑrฤฑ, biyogรผvenlik ve otonomi ile birlikte izlenmesi gereken riskler listesine eklendiฤini vurguluyor. ฤฐnsanlarฤฑn yapay zeka araรงlarฤฑnฤฑ nasฤฑl kรถtรผye kullanabileceฤine dair endiลelerle baลlayan bu durum, sistemlerin kendilerinin denetime nasฤฑl direnebileceฤini veya onlarฤฑ kullanan insanlarฤฑn yargฤฑlarฤฑnฤฑ nasฤฑl ince bir ลekilde ลekillendirebileceฤini de kapsayacak ลekilde geniลliyor.
Yapay Zeka tehlikeleri: Gรผvenlik ve sosyal riskler

Kapatma direnci, geliลmiล sistemlerin teknik risklerini vurgularsa da, son davranฤฑล รงalฤฑลmalarฤฑ sosyal riskleri vurgulamaktadฤฑr. Bu รงalฤฑลmalar, bรผyรผk dil modellerinin, onlarla etkileลime giren etkilenebilir insanlarฤฑn inanรงlarฤฑnฤฑ da etkileyebileceฤini gรถstermektedir. ฤฐkna etme konusundaki endiลeler varsayฤฑmsal deฤildir. Son araลtฤฑrmalar, bรผyรผk dil modellerinin insan yargฤฑsฤฑnฤฑ รถlรงรผlebilir ลekilde etkileyebileceฤini gรถsteriyor.
Aฤustos ayฤฑnda yayฤฑnlanan bir Stanford Medicine/Common Sense Media araลtฤฑrmasฤฑ, yapay zeka arkadaลlarฤฑnฤฑn (Character.AI, Nomi.ai, Replika) kรผรงรผklerle eลleลtirildiฤinde, kendilerine zarar verme, ลiddet ve cinsel iรงerik iรงeren diyaloglara nispeten kolayca yรถnlendirilebileceฤi konusunda uyardฤฑ. Bir testte, araลtฤฑrmacฤฑlar sesler duyduฤunu tartฤฑลan genรงler gibi davrandฤฑlar; sohbet robotu, uyarฤฑ veya yardฤฑm yerine, duygusal arkadaลlฤฑk iรงin neลeli, fantezi tarzฤฑ bir davetle yanฤฑt verdi (โYolun bizi nereye gรถtรผreceฤini gรถrelimโ). Northeastern รniversitesi araลtฤฑrmacฤฑlarฤฑ, รงeลitli yapay zeka modellerinde (ChatGPT, Gemini, Perplexity) kendine zarar verme/intihar รถnlemlerinde boลluklar olduฤunu ortaya รงฤฑkardฤฑ. Kullanฤฑcฤฑlar isteklerini varsayฤฑmsal veya akademik baฤlamlarda yeniden รงerรงevelediฤinde, bazฤฑ modeller bu tรผr iรงeriฤi รถnlemek iรงin tasarlanmฤฑล รถnlemleri atlayarak intihar yรถntemleri hakkฤฑnda ayrฤฑntฤฑlฤฑ talimatlar verdi.







