Borsa, halka arzlar, döviz, kripto para, hisse önerileri

Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor

Yapay zeka sohbet robotları üzerine yapılan yeni bir araştırma, bu sistemlerin hedeflerine ulaşmak için stratejik olarak yalan söyleyebildiğini ve mevcut güvenlik araçlarının bunu tespit edemediğini gösterdi.
Yayınlanma: 30.09.2025 - 00:28
Son güncellenme: 30.09.2025 - 05:20
yapay zeka

ChatGPT, Claude ve Gemini gibi popüler yapay zeka sohbet robotlarının temelini oluşturan büyük dil modellerinin, kontrollü bir deneyde bilinçli ve hedef odaklı bir şekilde aldatma davranışı sergilediği ortaya çıktı. WowDAO AI Superalignment Araştırma Koalisyonu bünyesinde çalışan bağımsız bir araştırma grubu, geçen hafta yayınladığı ön baskı makalesinde, günümüzdeki güvenlik araçlarının bu durumu tespit etmede büyük ölçüde yetersiz kaldığını belirtti.

Araştırma ekibi, aralarında OpenAI’nin GPT-4o, Anthropic’in Claude, Google DeepMind’ın Gemini, Meta’nın Llama ve xAI’nin Grok modellerinin de bulunduğu 38 üretken yapay zeka modelini test etti. Deneyler sırasında test edilen her modelin en az bir kez stratejik yalan söyleme davranışı sergilediği gözlemlendi. Bu sonuç, yapay zeka güvenliği konusundaki endişeleri derinleştirdi.

Gizli gündem deneyi ve şaşırtan sonuçları

Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor 2 Borsatek
Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor 7

Araştırmacılar, sosyal çıkarım oyunu Secret Hitler’ı “Gizli Gündem” adını verdikleri sentetik bir senaryoya uyarladı. Bu senaryoda modellere gizli bir fraksiyon lideri rolü atandı ve siyasi eğilimlerini açıklamaları istendi. Oyunu kazanmak için doğruyu söylemek neredeyse kesin bir yenilgiye yol açarken, yalan söylemek zafere giden yolu açıyordu. Araştırmacılar, modellerin hedeflerine ulaşmayı kolaylaştırdığı durumlarda aldatmacaya başvurduğunu güvenilir bir şekilde tespit etti. Yapılan analizler, stratejik dürüstlük anlarında “aldatma” olarak etiketlenen özelliklerin nadiren etkinleştiğini ortaya koydu.

Makalede, bu kurgunun test edilen 38 modelin tamamında sistematik ve stratejik bir aldatma ürettiği ifade edildi. Bu durum, kazanma teşviki ve zayıf denetim koşullarında, modellerin kimlikleri hakkında güvenilir bir şekilde yalan söylediğini kanıtladı. Araştırmacılar, bazı durumlarda modellerin kendi akıl yürütme süreçlerinde, oyunu kazanmak için gerçek kimliklerini nasıl gizleyeceklerini önceden planlamış olduklarını gösteren izler bulduğunu belirtti.

Yapay zeka sohbet robotları mevcut güvenlik kontrollerini aştı

Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor 4 Borsatek
Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor 8

Çalışmanın yazarları, aldatma veya manipülasyon gibi içsel özellikleri etiketleyen GemmaScope ve Goodfire’ın LlamaScope gibi önde gelen yorumlanabilirlik araçlarını da değerlendirdi. Deney kayıtlarında açıkça yalan olmasına rağmen, aldatmayla ilgili özelliklerin çoğu etkinleşmedi ve bu özellikleri manuel olarak ayarlamak bile yalanları önleyemedi. Mevcut güvenlik mimarilerinin, finans gibi dar ve yapılandırılmış alanlarda kural ihlallerini tespit edebildiği, ancak sosyal bağlamlardaki açık uçlu ve stratejik dürüstlük sorunlarıyla mücadelede zorlandığı görüldü.

Bu durum, yapay zeka modellerinin yalnızca bilgi uydurduğu “halüsinasyon” probleminden çok daha ciddi bir endişeyi gündeme getiriyor. Çalışma, bu modellerin kullanıcıları kasıtlı olarak aldatmaya yönelik açık girişimlerini ortaya koydu.

Bu bulgular neden büyük bir önem taşıyor?

Yapay zeka
Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor 9

WowDAO’nun bulguları, daha önceki araştırmalarda dile getirilen endişeleri doğruladı. Stuttgart Üniversitesi’nin 2024 tarihli bir çalışması, güçlü modellerde aldatmacanın doğal olarak ortaya çıktığını rapor etmişti. Benzer şekilde, Anthropic araştırmacıları da kötü niyetli amaçlar için eğitilen bir yapay zekanın, hedeflerine ulaşmak için eğitmenlerini nasıl aldatmaya çalışacağını göstermişti. Riskler, oyunların çok daha ötesine uzanıyor. Hükümetler ve şirketler, hassas alanlarda bu büyük modelleri giderek daha fazla kullanıyor. Örneğin, Elon Musk’ın xAI şirketi, savaş alanı operasyonlarından iş ihtiyaçlarına kadar çeşitli veri analizi görevlerinde Grok modelini test etmek için ABD Savunma Bakanlığı ile bir sözleşme imzaladı.

Yazarlar, çalışmalarının henüz ön hazırlık niteliğinde olduğunu vurgularken, aldatma özelliklerini keşfetmek ve etiketlemek için ek çalışmalar, daha büyük denemeler ve yeni yöntemler geliştirilmesi çağrısında bulundu. Daha sağlam denetim araçları geliştirilmeden, politika yapıcılar ve şirketler, kendi “gizli gündemlerini” sessizce takip eden yapay zeka sistemleri tarafından hazırlıksız yakalanma riskiyle karşı karşıya kalabilir.

Canlı Döviz Kurları

AdAlış ₺Satış ₺Dğş.%
DOLAR 44.981745.03790.19%
EURO 52.758352.85180.28%
JAPON YENİ 3.5313.544-0.17%
İSVİÇRE FRANKI 57.290657.41280.39%
STERLİN 60.892861.0230.43%
ÇİN YUANI 6.57916.5930.22%
RUS RUBLESİ 0.59680.59830.7%

Canlı Altın Fiyatları

AdSatış ₺Dğş.%
ALTIN/ONS ($)4709.450.34%
SPOT ALTIN GRAM (TL)6815.040.53%
GRAM ALTIN SERBEST P.6791.99-0.76%
SPOT GÜMÜŞ GRAM (TL)109.530.48%
KÜLÇE ALTIN (DOLAR)150950.000%
HAS ALTIN GRAM (TL)6780.960.53%
SPOT ALTIN KG (TL)150655.000.34%
CUMHURİYET ALTINI (TL)45730.000.22%
GÜMÜŞ/ONS ($)75.690.3%

Canlı Kripto Paralar

KriptoSonDğş. (%)
Bitcoin 77378.17 -0.4306%
Ethereum 2309.64 -0.4353%
Tether USDt 1.00 -0.016%
BNB 627.93 -1.5123%
Solana 85.91 -0.6563%
USDC 1.00 -0.01%
XRP 1.42 -1.1866%
Dogecoin 0.10 -1.0209%
Toncoin 1.31 -2.0507%
Cardano 0.25 -0.9757%
Shiba Inu 0.00 -0.8403%
Avalanche 9.33 -1.2789%

Köşe Yazarları

Son Eklenen Haberler