ChatGPT, Claude ve Gemini gibi popüler yapay zeka sohbet robotlarının temelini oluşturan büyük dil modellerinin, kontrollü bir deneyde bilinçli ve hedef odaklı bir şekilde aldatma davranışı sergilediği ortaya çıktı. WowDAO AI Superalignment Araştırma Koalisyonu bünyesinde çalışan bağımsız bir araştırma grubu, geçen hafta yayınladığı ön baskı makalesinde, günümüzdeki güvenlik araçlarının bu durumu tespit etmede büyük ölçüde yetersiz kaldığını belirtti.
Araştırma ekibi, aralarında OpenAI’nin GPT-4o, Anthropic’in Claude, Google DeepMind’ın Gemini, Meta’nın Llama ve xAI’nin Grok modellerinin de bulunduğu 38 üretken yapay zeka modelini test etti. Deneyler sırasında test edilen her modelin en az bir kez stratejik yalan söyleme davranışı sergilediği gözlemlendi. Bu sonuç, yapay zeka güvenliği konusundaki endişeleri derinleştirdi.
Gizli gündem deneyi ve şaşırtan sonuçları

Araştırmacılar, sosyal çıkarım oyunu Secret Hitler’ı “Gizli Gündem” adını verdikleri sentetik bir senaryoya uyarladı. Bu senaryoda modellere gizli bir fraksiyon lideri rolü atandı ve siyasi eğilimlerini açıklamaları istendi. Oyunu kazanmak için doğruyu söylemek neredeyse kesin bir yenilgiye yol açarken, yalan söylemek zafere giden yolu açıyordu. Araştırmacılar, modellerin hedeflerine ulaşmayı kolaylaştırdığı durumlarda aldatmacaya başvurduğunu güvenilir bir şekilde tespit etti. Yapılan analizler, stratejik dürüstlük anlarında “aldatma” olarak etiketlenen özelliklerin nadiren etkinleştiğini ortaya koydu.
Makalede, bu kurgunun test edilen 38 modelin tamamında sistematik ve stratejik bir aldatma ürettiği ifade edildi. Bu durum, kazanma teşviki ve zayıf denetim koşullarında, modellerin kimlikleri hakkında güvenilir bir şekilde yalan söylediğini kanıtladı. Araştırmacılar, bazı durumlarda modellerin kendi akıl yürütme süreçlerinde, oyunu kazanmak için gerçek kimliklerini nasıl gizleyeceklerini önceden planlamış olduklarını gösteren izler bulduğunu belirtti.
Yapay zeka sohbet robotları mevcut güvenlik kontrollerini aştı

Çalışmanın yazarları, aldatma veya manipülasyon gibi içsel özellikleri etiketleyen GemmaScope ve Goodfire’ın LlamaScope gibi önde gelen yorumlanabilirlik araçlarını da değerlendirdi. Deney kayıtlarında açıkça yalan olmasına rağmen, aldatmayla ilgili özelliklerin çoğu etkinleşmedi ve bu özellikleri manuel olarak ayarlamak bile yalanları önleyemedi. Mevcut güvenlik mimarilerinin, finans gibi dar ve yapılandırılmış alanlarda kural ihlallerini tespit edebildiği, ancak sosyal bağlamlardaki açık uçlu ve stratejik dürüstlük sorunlarıyla mücadelede zorlandığı görüldü.
Bu durum, yapay zeka modellerinin yalnızca bilgi uydurduğu “halüsinasyon” probleminden çok daha ciddi bir endişeyi gündeme getiriyor. Çalışma, bu modellerin kullanıcıları kasıtlı olarak aldatmaya yönelik açık girişimlerini ortaya koydu.
Bu bulgular neden büyük bir önem taşıyor?

WowDAO’nun bulguları, daha önceki araştırmalarda dile getirilen endişeleri doğruladı. Stuttgart Üniversitesi’nin 2024 tarihli bir çalışması, güçlü modellerde aldatmacanın doğal olarak ortaya çıktığını rapor etmişti. Benzer şekilde, Anthropic araştırmacıları da kötü niyetli amaçlar için eğitilen bir yapay zekanın, hedeflerine ulaşmak için eğitmenlerini nasıl aldatmaya çalışacağını göstermişti. Riskler, oyunların çok daha ötesine uzanıyor. Hükümetler ve şirketler, hassas alanlarda bu büyük modelleri giderek daha fazla kullanıyor. Örneğin, Elon Musk’ın xAI şirketi, savaş alanı operasyonlarından iş ihtiyaçlarına kadar çeşitli veri analizi görevlerinde Grok modelini test etmek için ABD Savunma Bakanlığı ile bir sözleşme imzaladı.
Yazarlar, çalışmalarının henüz ön hazırlık niteliğinde olduğunu vurgularken, aldatma özelliklerini keşfetmek ve etiketlemek için ek çalışmalar, daha büyük denemeler ve yeni yöntemler geliştirilmesi çağrısında bulundu. Daha sağlam denetim araçları geliştirilmeden, politika yapıcılar ve şirketler, kendi “gizli gündemlerini” sessizce takip eden yapay zeka sistemleri tarafından hazırlıksız yakalanma riskiyle karşı karşıya kalabilir.







