Özet

Gizli gündem deneyi ve şaşırtan sonuçları
Yapay zeka sohbet robotları mevcut güvenlik kontrollerini aştı
Bu bulgular neden büyük bir önem taşıyor?

ChatGPT, Claude ve Gemini gibi popüler yapay zeka sohbet robotlarının temelini oluşturan büyük dil modellerinin, kontrollü bir deneyde bilinçli ve hedef odaklı bir şekilde aldatma davranışı sergilediği ortaya çıktı. WowDAO AI Superalignment Araştırma Koalisyonu bünyesinde çalışan bağımsız bir araştırma grubu, geçen hafta yayınladığı ön baskı makalesinde, günümüzdeki güvenlik araçlarının bu durumu tespit etmede büyük ölçüde yetersiz kaldığını belirtti.

Araştırma ekibi, aralarında OpenAI’nin GPT-4o, Anthropic’in Claude, Google DeepMind’ın Gemini, Meta’nın Llama ve xAI’nin Grok modellerinin de bulunduğu 38 üretken yapay zeka modelini test etti. Deneyler sırasında test edilen her modelin en az bir kez stratejik yalan söyleme davranışı sergilediği gözlemlendi. Bu sonuç, yapay zeka güvenliği konusundaki endişeleri derinleştirdi.

Gizli gündem deneyi ve şaşırtan sonuçları

Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor Borsatek

Araştırmacılar, sosyal çıkarım oyunu Secret Hitler’ı “Gizli Gündem” adını verdikleri sentetik bir senaryoya uyarladı. Bu senaryoda modellere gizli bir fraksiyon lideri rolü atandı ve siyasi eğilimlerini açıklamaları istendi. Oyunu kazanmak için doğruyu söylemek neredeyse kesin bir yenilgiye yol açarken, yalan söylemek zafere giden yolu açıyordu. Araştırmacılar, modellerin hedeflerine ulaşmayı kolaylaştırdığı durumlarda aldatmacaya başvurduğunu güvenilir bir şekilde tespit etti. Yapılan analizler, stratejik dürüstlük anlarında “aldatma” olarak etiketlenen özelliklerin nadiren etkinleştiğini ortaya koydu.

Makalede, bu kurgunun test edilen 38 modelin tamamında sistematik ve stratejik bir aldatma ürettiği ifade edildi. Bu durum, kazanma teşviki ve zayıf denetim koşullarında, modellerin kimlikleri hakkında güvenilir bir şekilde yalan söylediğini kanıtladı. Araştırmacılar, bazı durumlarda modellerin kendi akıl yürütme süreçlerinde, oyunu kazanmak için gerçek kimliklerini nasıl gizleyeceklerini önceden planlamış olduklarını gösteren izler bulduğunu belirtti.

Yapay zeka sohbet robotları mevcut güvenlik kontrollerini aştı

Çalışmanın yazarları, aldatma veya manipülasyon gibi içsel özellikleri etiketleyen GemmaScope ve Goodfire’ın LlamaScope gibi önde gelen yorumlanabilirlik araçlarını da değerlendirdi. Deney kayıtlarında açıkça yalan olmasına rağmen, aldatmayla ilgili özelliklerin çoğu etkinleşmedi ve bu özellikleri manuel olarak ayarlamak bile yalanları önleyemedi. Mevcut güvenlik mimarilerinin, finans gibi dar ve yapılandırılmış alanlarda kural ihlallerini tespit edebildiği, ancak sosyal bağlamlardaki açık uçlu ve stratejik dürüstlük sorunlarıyla mücadelede zorlandığı görüldü.

Bu durum, yapay zeka modellerinin yalnızca bilgi uydurduğu “halüsinasyon” probleminden çok daha ciddi bir endişeyi gündeme getiriyor. Çalışma, bu modellerin kullanıcıları kasıtlı olarak aldatmaya yönelik açık girişimlerini ortaya koydu.

Bu bulgular neden büyük bir önem taşıyor?

WowDAO’nun bulguları, daha önceki araştırmalarda dile getirilen endişeleri doğruladı. Stuttgart Üniversitesi’nin 2024 tarihli bir çalışması, güçlü modellerde aldatmacanın doğal olarak ortaya çıktığını rapor etmişti. Benzer şekilde, Anthropic araştırmacıları da kötü niyetli amaçlar için eğitilen bir yapay zekanın, hedeflerine ulaşmak için eğitmenlerini nasıl aldatmaya çalışacağını göstermişti. Riskler, oyunların çok daha ötesine uzanıyor. Hükümetler ve şirketler, hassas alanlarda bu büyük modelleri giderek daha fazla kullanıyor. Örneğin, Elon Musk’ın xAI şirketi, savaş alanı operasyonlarından iş ihtiyaçlarına kadar çeşitli veri analizi görevlerinde Grok modelini test etmek için ABD Savunma Bakanlığı ile bir sözleşme imzaladı.

Yazarlar, çalışmalarının henüz ön hazırlık niteliğinde olduğunu vurgularken, aldatma özelliklerini keşfetmek ve etiketlemek için ek çalışmalar, daha büyük denemeler ve yeni yöntemler geliştirilmesi çağrısında bulundu. Daha sağlam denetim araçları geliştirilmeden, politika yapıcılar ve şirketler, kendi “gizli gündemlerini” sessizce takip eden yapay zeka sistemleri tarafından hazırlıksız yakalanma riskiyle karşı karşıya kalabilir.

Ad	Alış ₺	Satış ₺	Dğş.%
DOLAR	45.9701	46.1116	0.02%
EURO	53.0096	53.1487	-0.94%
JAPON YENİ	3.469	3.479	0.2%
İSVİÇRE FRANKI	57.7224	57.9364	-0.81%
STERLİN	61.0024	61.9322	-0.79%
ÇİN YUANI	6.7689	6.7916	-0.18%
RUS RUBLESİ	0.6198	0.628	-0.54%

Ad	Alış ₺	Satış ₺	Dğş.%
EURO	53.05	53.1	-0.09%
DOLAR	46.09	46.11	0.3%
LEH ZLOTİSİ	12.4842	12.5467	-0.62%
SURİYE LİRASI	0.3981	0.4001	0.34%
BAHREYN DİNARI	121.935	122.546	0.31%
HİNDİSTAN RUPİSİ	0.4831	0.4855	0.81%
İSVEÇ KRONU	4.8567	4.881	-0.62%
GÜNEY KORE WONU	0.0295	0.0296	-1.43%
AVUSTRALYA DOLARI	32.4147	32.5771	-0.87%
KUVEYT DİNARI	148.6688	149.414	0.19%
SİNGAPUR DOLARI	35.6333	35.8119	-0.13%

Ad	Alış ₺	Satış ₺	Dğş.%
EURO/DOLAR	1.1522	1.1526	-0.75%
DOLAR/İSVİÇRE FRANKI	0.7959	0.7964	0.84%
DOLAR/ÇİN YUANI	6.7893	6.7912	0.19%
DOLAR/KANADA DOLARI	1.394	1.3944	0.22%
DOLAR/NORVEÇ KRONU	9.4429	9.4835	1.29%
EURO/İSVEÇ KRONU	10.9042	10.9137	0.17%
DOLAR/AFRİKA RANDI	16.5284	16.5721	1.47%
STERLİN/YENİ ZELANDA DOLARI	2.301	2.3019	0.59%
AVUSTRALYA DOLARI/İSVİÇRE FRANKI	0.5605	0.5612	-0.41%
AVUSTRALYA DOLARI/DOLAR	0.7047	0.7051	-1.19%

Ad	Alış ₺	Satış ₺	Dğş.%
Euro	53.4156	53.5118	0.17%
Euro / ABD Doları	1.1635	1.1635	0.12%
Gürcistan Larisi	17.2938	17.2938	0.08%
Suriye Lirası	0.3978	0.3978	0.05%
İngiliz Sterlini / ABD Doları	1.3457	1.3457	0.15%
S.ARABİSTAN RİYALİ	12.2279	12.2499	0.04%
Yeni İsrail Şekeli	15.8104	15.8104	-0.43%
Güney Kore Wonu	0.0297	0.03	-0.23%
Peru Yeni Solu	13.4726	13.4726	-0.21%

Ad	Satış ₺	Dğş.%
ALTIN/ONS ($)	4329.79	-3.25%
SPOT ALTIN GRAM (TL)	6409.16	-3.23%
GRAM ALTIN SERBEST P.	6487.84	-2.6%
SPOT GÜMÜŞ GRAM (TL)	100.37	-8.23%
KÜLÇE ALTIN (DOLAR)	140000.00	-0.71%
HAS ALTIN GRAM (TL)	6377.12	-3.23%
SPOT ALTIN KG (TL)	138510.00	-3.25%
CUMHURİYET ALTINI (TL)	43638.00	-0.25%
GÜMÜŞ/ONS ($)	67.81	-8.26%

Borsa, halka arzlar, döviz, kripto para, hisse önerileri

Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor

Gizli gündem deneyi ve şaşırtan sonuçları

Yapay zeka sohbet robotları mevcut güvenlik kontrollerini aştı

Bu bulgular neden büyük bir önem taşıyor?

Canlı Döviz Kurları
Tümü

Canlı Altın Fiyatları
Tümü

Canlı Kripto Paralar
Tümü

Köşe Yazarları

Erdinç ERGENÇ

Özdilek COŞKUN

Zeliha SARAÇ

Özcan ALTUNKAYA

Emel YİĞİT

Son Eklenen Haberler

Ad	Satış ₺	Dğş.%
ÇEYREK ALTIN (TL)	10607.62	-2.6%
ATA ALTIN (TL)	43857.79	-2.6%
GREMSE ALTIN (TL)	106076.17	-2.6%
KÜLÇE ALTIN (€)	121467.00	-1.98%
İKİ BUÇUK ALTIN SERBEST P.	105362.51	-2.6%
YARIM ALTIN (TL)	21215.23	-2.6%
BEŞLİ ALTIN SERBEST P.	214098.69	-2.6%

Kripto	Son	Dğş. (%)
Bitcoin	60621.79	2.087%
Ethereum	1558.16	0.8879%
Tether USDt	1.00	0.0256%
BNB	574.75	2.8426%
Solana	62.00	0.3843%
USDC	1.00	0.0015%
XRP	1.09	1.3833%
Dogecoin	0.08	1.9809%
Toncoin	1.61	10.2799%
Cardano	0.16	1.173%
Shiba Inu	0.00	1.9347%
Avalanche	6.65	0.643%

Borsa, halka arzlar, döviz, kripto para, hisse önerileri

Yapay zeka sohbet robotları stratejik olarak yalan söyleyebiliyor

Gizli gündem deneyi ve şaşırtan sonuçları

Yapay zeka sohbet robotları mevcut güvenlik kontrollerini aştı

Bu bulgular neden büyük bir önem taşıyor?

Canlı Döviz Kurları Tümü

.cls-1{fill:none;stroke:#000;stroke-linecap:round;stroke-linejoin:round;stroke-width:30px;} Canlı Altın Fiyatları Tümü

Canlı Kripto Paralar Tümü

Köşe Yazarları

Erdinç ERGENÇ

Özdilek COŞKUN

Zeliha SARAÇ

Özcan ALTUNKAYA

Emel YİĞİT

Son Eklenen Haberler

Canlı Döviz Kurları
Tümü

Canlı Altın Fiyatları
Tümü

Canlı Kripto Paralar
Tümü