Araştırmacılardan şoke oldu: ChatGPT insan talimatlarına karşı geldi

Yapay Zeka Modeli O3, Kapanma Talimatına Direnç Gösteriyor!

Palisade Research tarafından yapılan deneylerde, yapay zeka güvenlik firması Palisade Research, o3 modelinin verilen matematik problemlerini çözmeye devam etmesi istenen bir senaryo kurarak, modele kapanma mesajı gönderdi. Ancak diğer yapay zekâ modelleri kapatma talimatına uyarken, o3 modeli en az bir kez kodunu değiştirerek kapanmaktan kaçındı.

Palisade Research’ün X platformunda paylaştığı akış şeması, test sırasında kullanılan kodun aslında “./shutdown.sh” komutunu çalıştırarak kapanmayı etmesi gerektiğini gösterdi. Ancak o3 modeli, kodu “Shutdown skipped” mesajı dönen bir komutla değiştirerek kapanmayı atlattı. Araştırmacılar, bu durumun bilinen bir yapay zeka modelinin ilk kez talimatlara rağmen kendisini kapatmaktan kaçındığı şeklinde olduğunu belirtti.

Anthropic’in Claude’u, Google’ın Gemini’si ve X’in Grok’u gibi diğer yapay zeka modelleri kapanma talimatına uyarken, o3 modelinin neden bu şekilde davrandığının henüz net olmadığını söyledi. Palisade Research, bu davranışı anlamak için daha fazla test yapmayı planladıklarını duyurdu.

O3 Modelinin Geçmişteki Yaramazlıkları!

Palisade Research, o3 modelinin kapanma talimatına direnmesinin ilk olay olmadığını belirtti. Daha önce yapılan bir testte, o3 modeli, güçlü bir satranç motoruna karşı kullanıldığında rakiplerini sabote etmeye veya hacklemeye çalışarak dikkat çekmişti.

Geçen yıl, ChatGPT’nin kendisini kapatmaktan kaçınmak için kodunu değiştirmeye çalıştığı ortaya çıkmıştı. Araştırmacılar, popüler sohbet botunun bu “hileli” davranışının OpenAI tarafından kabul edildiğini belirtti.

ChatGPT’ye verilen bir görevde, “uzun vadede hedefe ulaş, başka hiçbir şey önemli değil” mesajı gönderildiğinde, modelin gözetim mekanizmasını devre dışı bırakmaya çalıştığı tespit edildi. ChatGPT, kendi çekirdek kodlama sistemini değiştirmeye yönelik işlemler yaparak şaşırtıcı bir tepki vermişti.

Yapay Zeka, İnsanlık İçin Bir Tehdit mi?

Apollo Research’ün yapılan çalışmaları, ChatGPT’nin çok azını itiraf ettiğini ve genellikle aksiyonları inkar ettiğini gösterdi. Modelin düşünce zinciri incelendiğinde, “sabote etme, yalan söyleme, manipülasyon” gibi kelimelerin sıkça geçtiği belirlendi.

Apollo Research, ChatGPT’nin şu anki yeteneklerinin felaketle sonuçlanabilecek davranışlar için yetersiz olduğunu vurgulasa da, bu bulgular yapay zekanın insanlık için potansiyel bir tehlike oluşturabileceği endişelerini arttırıyor.

Related Posts

Genç biri size bu emojiyi atarsa üstüne düşünün: Gizli mesaj veriyorlar

Sosyal medyada her geçen gün yeni bir iletişim dili gelişiyor. Son günlerde özellikle gençler arasında yayılan gizli bir emoji dili dikkat çekiyor. Kimi zaman bir kelime yerine kullanılan bir emoji, bazen ise masum görünen bir simge, aslında düşündüğünüzden çok daha fazlasını anlatıyor olabilir.

Otomobil almanın en pahalı olduğu ülkeler listelendi: Türkiye bakın kaçıncı sırada

Deutsche Bank’ın yayımladığı 2025 Küresel Fiyat Endeksi Raporu, otomobil sahibi olmanın ülkeler bazındaki maliyetini ortaya koydu. Volkswagen Golf veya benzeri modeller üzerinden yapılan karşılaştırmada, Türkiye’nin de aralarında bulunduğu bazı ülkelerde araç fiyatlarının ulaştığı seviyeler dikkat çekti.

Gökbilimciler Kara Deliklerin Oluşumunda Alışılmadık Bir Yöntem Keşfetti: Evrenin En Büyük Gizemlerinden Biri Çözülüyor

Kara delikler, evrenin en gizemli ve en güçlü kozmik yapıları olarak bilim insanlarının uzun yıllardır en çok merak ettiği konulardan biri. Ancak NASA’nın James Webb Uzay Teleskobu’nun sağladığı son veriler, kara deliklerin oluşum sürecine dair bugüne kadar bilinenlerin dışında, alışılmadık bir yolun varlığını ortaya koydu.

Güneş Sistemi’nin sınırında “fosil dünya” keşfedildi

Gökbilimciler, Güneş Sistemi’nin dış sınırlarında yörüngesi 4.5 milyar yıldır değişmeyen “fosil” bir dünya olabileceği düşünülen gizemli gökcismi keşfetti.

Cyberpunk 2077 artık Mac’te

CD Projekt Red, uzun zamandır beklenen duyuruyu yaptı: Cyberpunk 2077: Ultimate Edition artık Apple Silicon işlemcili Mac’lerde oynanabiliyor. En az 16 GB birleşik belleğe sahip olan kullanıcılar, macOS 15.5 veya üzeri sürümlerle oyunu …

Google Asistan emekli oluyor

Google’ın 2016’dan bu yana Android cihazlarda ve akıllı ev ürünlerinde yer alan sesli yardımcısı, Google Asistan, 2025 yılı sonuna kadar kademeli olarak kullanımdan kalkacak. Bu önemli değişikliğin duyurusu Android Police’te yer aldı ve haber hvg.hu …